tokenholic_拜读未来科技摆渡人生

仅缩小视觉Token位置编码间隔，轻松让多模态大模型理解百万Token！清华大学，香港大学，上海AI Lab新突破

本文共同一作为葛俊岐 (清华大学本科生)，陈子熠 (清华大学本科生)，林锦涛 (香港大学博士生)，祝金国 (上海 AI Lab 青年研究员)。本文的通讯作者是朱锡洲，他的研究方向是视觉基础模型和多模态基础模型，代表作有 Deformable DETR、DCN v2 等。

随着语言大模型的成功，视觉 - 语言多模态大模型 (Vision-Language Multimodal Models, 简写为 VLMs) 发展迅速，但在长上下文场景下表现却不尽如人意，这一问题严重制约了多模态模型在实际应用中的潜力。

17 0 2025-09-02