
400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
400万token上下文、推理再加速46%!最新开源方案升级MIT成果,推理成本再降低
22倍加速还不够,再来提升46%,而且方法直接开源!
这就是开源社区改进MIT爆火项目StreamingLLM的最新成果。
StreamingLLM可以在不牺牲生成效果、推理速度的前提下,实现多轮对话共
19
0
2025-09-01