neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

摩尔线程Round Attention优化AI对话

摩尔线程Round Attention优化AI对话

摩尔线程科研团队发布研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,该方法端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache 显存占用节省55%到82% 。
17 0 2025-08-28