但是有些是有用的_拜读未来科技摆渡人生

为什么用错奖励，模型也能提分？新研究：模型学的不是新知识，是思维

最近的一篇论文中，来自人大和腾讯的研究者们的研究表明，语言模型对强化学习中的奖励噪音具有鲁棒性，即使翻转相当一部分的奖励（例如，正确答案得 0 分，错误答案得 1 分），也不会显著影响下游任务的表现。

研究者解释道，强化学习对下游任务的提升，关键不仅在于奖励的准确性，而更在于模型是否能够产生高质量的思考过程。仅通过奖励模型输出中关键思考词的出现频率，而非基于答案正确性的奖励，语言模型依然能够在下游任务中取得非常高的峰值表现。这表明，强化学习对下游任务的提升，更多来源于让模型学会采用恰当的思考路径接近正确答案。而相关的解题基础能力，模型已在预训练阶段获得。因此，预训练阶段的能力提升依然至关重要。

15 0 2025-09-05

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

贾佳亚团队联合多家知名高校提出了一种全新的测评方法，让一些模型立马现出了原型。

这下不用担心大模型“刷题”太多，测试集无法体现真实水平了。

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

14 0 2025-09-04

不是大模型用不起，而是小模型更有性价比

无法控制成本的大模型终将被“快好省”的小模型取代

到了年末，又到了喜闻乐见的“2024大预测”环节。

今年最热的AI赛道中，机构们自然也得下一些判断，比如说——

16 0 2025-09-03

大模型，还是救不了困境中的AI企业

“过去AI公司碰见的问题，今天仍然没有解决”。

去年，ChatGPT掀起的一片浪花，卷起了全球互联网科技创新的浪潮，大模型成为当之无愧的风口，这也给近几年略显平静和停滞的AI行业注入了新的活力，让AI相关企业再次站在互联网舞台的中央。

15 0 2025-09-03

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。

大语言模型的「推理」能力应该不是推理，在今年 6 月，

15 0 2025-09-03

‹‹ 1 ››

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30