neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”

首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”

首个奖励模型评分基准!清华复旦港科大联合攻克AI评委“偏科”

模型胡乱论证“1+1=3”,评测系统却浑然不觉甚至疯狂打Call?是时候给奖励模型打个分了!


来自清华大学、复旦大学和香港科技大学的研究团队,联合发布基准测试RM-BENCH,对大语言模型的”认知敏锐度”发出挑战。


RM-BENCH首次系统性地构建了针对奖励模型的评测基准,直击其“形式大于内容”的评估困境。


15 0 2025-09-04