
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” - UIUC&阿里通义
感知错误率降低30.5%:隐式感知损失让模型主动“睁大眼睛” | UIUC&阿里通义
让大模型在学习推理的同时学会感知。
伊利诺伊大学香槟分校(UIUC)与阿里巴巴通义实验室联合推出了全新的专注于多模态推理的强化学习算法PAPO(Perception-Aware Policy Optimization)。
现有的强化学习算法(如GRPO)虽然在纯文本推理中表现优异,但当应用于多模态场景时,往往无法充分利用视觉信息进行推理。
17
0
2025-09-03