
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器
单向VLM变双向!人大斯坦福等提出MoCa框架:双向多模态编码器
预训练的视觉语言模型(VLM)因其强大的图文联合建模能力,在多种任务上展现出巨大潜力,也成为了许多目前广泛使用的多模态嵌入模型的基础。
然而,这些使用因果注意力机制的多模态嵌入模型在多模态嵌入任务中存在三个关键限制:
- 表示能力弱:因果注意力机制单向预测的特性,限制了模型充分捕获双向跨模态的深层语义。
- 泛化性差:传统模型多依赖于简单的图文对训练数据,缺乏更广泛、更丰富的数据源,难以在新任务或新领域快速泛化。
15
0
2025-09-03