neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

为什么用错奖励,模型也能提分?新研究:模型学的不是新知识,是思维

最近的一篇论文中,来自人大和腾讯的研究者们的研究表明,语言模型对强化学习中的奖励噪音具有鲁棒性,即使翻转相当一部分的奖励(例如,正确答案得 0 分,错误答案得 1 分),也不会显著影响下游任务的表现。


研究者解释道,强化学习对下游任务的提升,关键不仅在于奖励的准确性,而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的出现频率,而非基于答案正确性的奖励,语言模型依然能够在下游任务中取得非常高的峰值表现。这表明,强化学习对下游任务的提升,更多来源于让模型学会采用恰当的思考路径接近正确答案。而相关的解题基础能力,模型已在预训练阶段获得。因此,预训练阶段的能力提升依然至关重要。

15 0 2025-09-05
专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50

专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50

专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50

大模型测试能拿高分,实际场景中却表现不佳的问题有解了。


贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。


这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。


专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50

14 0 2025-09-04
不是大模型用不起,而是小模型更有性价比

不是大模型用不起,而是小模型更有性价比

不是大模型用不起,而是小模型更有性价比

无法控制成本的大模型终将被“快好省”的小模型取代


到了年末,又到了喜闻乐见的“2024大预测”环节。


今年最热的AI赛道中,机构们自然也得下一些判断,比如说——

16 0 2025-09-03
大模型,还是救不了困境中的AI企业

大模型,还是救不了困境中的AI企业

大模型,还是救不了困境中的AI企业

“过去AI公司碰见的问题,今天仍然没有解决”。


去年,ChatGPT掀起的一片浪花,卷起了全球互联网科技创新的浪潮,大模型成为当之无愧的风口,这也给近几年略显平静和停滞的AI行业注入了新的活力,让AI相关企业再次站在互联网舞台的中央。


15 0 2025-09-03