
多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制
多轮对话推理速度提升46%,开源方案打破LLM多轮对话的长度限制
在大型语言模型(LLM)的世界中,处理多轮对话一直是一个挑战。前不久麻省理工 Guangxuan Xiao 等人推出的 StreamingLLM,能够在不牺牲推理速度和生成效果的前提下,可实现多轮对话总共 400 万个 token 的流式输入,22.2 倍的推理速度提升。
17
0
2025-09-05