neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

字节豆包、武大提出 CAL:通过视觉相关的 token 增强多模态对齐效果

当前主流的视觉语言模型(VLM)主要基于大语言模型(LLM)进一步微调。因此需要通过各种方式将图像映射到 LLM 的嵌入空间,然后使用自回归方式根据图像 token 预测答案。


在这个过程中,模态的对齐是通过文本 token 隐式实现的,如何做好这一步的对齐非常关键。

8 0 2025-09-06