模态类型_拜读未来科技摆渡人生

多模态CoT思维链架构来了，现已开源｜来自厦大&腾讯优图

多模态大模型，也有自己的CoT思维链了！

厦门大学&腾讯优图团队提出一种名为“领唱员（Cantor）

7 0 2025-09-07

在多模态大模型快速发展的当下，如何精准评估其生成内容的质量，正成为多模态大模型与人类偏好对齐的核心挑战。然而，当前主流多模态奖励模型往往只能直接给出评分决策，或仅具备浅层推理能力，缺乏对复杂奖励任务的深入理解与解释能力，在高复杂度场景中常出现 “失真失准”。

那么，奖励模型是否也能具备像人类一样的深度思考能力？

近日，腾讯混元与上海 AI Lab、复旦大学、上海创智学院联合提出全新研究工作 UnifiedReward-Think，构建出首个具备长链式推理能力的统一多模态奖励模型，首次让奖励模型在各视觉任务上真正 “学会思考”，实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。

14 0 2025-09-05

CLIP、DINO、SAM 基座的重磅问世，推动了各个领域的任务大一统，也促进了多模态大模型的蓬勃发展。

然而，这些经过图像级监督或弱语义训练的基座，并不是处理细粒度密集预测任务的最佳选择，尤其在理解包含密集文字的文档图像上。

为解决这一限制，上交联合美团实现了图文对齐粒度的新突破，其具备三大核心优势：

20 0 2025-09-03

最近，多模态大模型（LMM）取得了一系列引人注目的成就，特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性，也为更多视觉场景下的应用探索了新的道路。

尽管如此，在将 LMM 应用到计算机视觉任务上时，我们仍面临一个关键挑战：大多数 LMM 目前只限于文本输出，这限制了它们在处理更细粒度的视觉任务，如图像分割方面的能力。

15 0 2025-09-03

‹‹ 1 ››