neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源

在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。


那么,奖励模型是否也能具备像人类一样的深度思考能力?


近日,腾讯混元与上海 AI Lab、复旦大学、上海创智学院联合提出全新研究工作 UnifiedReward-Think,构建出首个具备长链式推理能力的统一多模态奖励模型,首次让奖励模型在各视觉任务上真正 “学会思考”,实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。

14 0 2025-09-05
模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

模态GAP不存在了?图文领域首个token级大一统基座诞生

CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。


然而,这些经过图像级监督或弱语义训练的基座,并不是处理细粒度密集预测任务的最佳选择,尤其在理解包含密集文字的文档图像上。


为解决这一限制,上交联合美团实现了图文对齐粒度的新突破,其具备三大核心优势:


    20 0 2025-09-03
    多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

    多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

    多模态大模型有了统一分割框架,华科PSALM多任务登顶,模型代码全开源

    最近,多模态大模型(LMM)取得了一系列引人注目的成就,特别是在视觉 - 语言任务上的表现令人瞩目。它们的成功不仅展现了多模态大模型在各个领域的实用性和灵活性,也为更多视觉场景下的应用探索了新的道路。


    尽管如此,在将 LMM 应用到计算机视觉任务上时,我们仍面临一个关键挑战:大多数 LMM 目前只限于文本输出,这限制了它们在处理更细粒度的视觉任务,如图像分割方面的能力。

    15 0 2025-09-03