
多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图
多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图
多模态大模型,也有自己的CoT思维链了!
厦门大学&腾讯优图团队提出一种名为“领唱员(Cantor)
7
0
2025-09-07

多模态CoT思维链架构来了,现已开源|来自厦大&腾讯优图
多模态大模型,也有自己的CoT思维链了!
厦门大学&腾讯优图团队提出一种名为“领唱员(Cantor)

首个多模态统一CoT奖励模型来了,模型、数据集、训练脚本全开源
在多模态大模型快速发展的当下,如何精准评估其生成内容的质量,正成为多模态大模型与人类偏好对齐的核心挑战。然而,当前主流多模态奖励模型往往只能直接给出评分决策,或仅具备浅层推理能力,缺乏对复杂奖励任务的深入理解与解释能力,在高复杂度场景中常出现 “失真失准”。
那么,奖励模型是否也能具备像人类一样的深度思考能力?
近日,腾讯混元与上海 AI Lab、复旦大学、上海创智学院联合提出全新研究工作 UnifiedReward-Think,构建出首个具备长链式推理能力的统一多模态奖励模型,首次让奖励模型在各视觉任务上真正 “学会思考”,实现对复杂视觉生成与理解任务的准确评估、跨任务泛化与推理可解释性的大幅提升。

多模态大模型+自动驾驶=?ECCV'24这场Workshop开启招募啦
多模态,已经成为大模型最重要的发展方向之一。
从GPT-4V到GPT-4o,多模态大模型在多模态感知与理解方面的进展,正在不断惊艳世界。
然而,利用多模态大模型来应对自动驾驶中复杂场景,特别是罕见但关键的难例场景,仍然是一个未解的难题。

