
模态GAP不存在了?图文领域首个token级大一统基座诞生
模态GAP不存在了?图文领域首个token级大一统基座诞生
CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。
然而,这些经过图像级监督或弱语义训练的基座,并不是处理细粒度密集预测任务的最佳选择,尤其在理解包含密集文字的文档图像上。
为解决这一限制,上交联合美团实现了图文对齐粒度的新突破,其具备三大核心优势:
21
0
2025-09-03
