
DeepSeek的MLA,任意大模型都能轻松迁移了
DeepSeek的MLA,任意大模型都能轻松迁移了
复旦 NLP 实验室博士后纪焘是这篇文章的第一作者,研究方向为大模型高效推理、多模态大模型,近期代表工作为首个NoPE外推HeadScale、注意力分块外推LongHeads、多视觉专家大模型MouSi,发表ACL、ICLR、EMNLP等顶会顶刊论文 20 余篇。
2
0
2025-09-08