模型改进_拜读未来科技摆渡人生

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

大模型测试能拿高分，实际场景中却表现不佳的问题有解了。

贾佳亚团队联合多家知名高校提出了一种全新的测评方法，让一些模型立马现出了原型。

这下不用担心大模型“刷题”太多，测试集无法体现真实水平了。

专治大模型“刷题”！贾佳亚团队新基准让模型只挑错不做题，GPT-4得分不到50

14 0 2025-09-04

互联网时代属于产品经理的高光，还没有在AI时代复现。

2024年，生成式大模型的迭代步伐暂时放缓，产品经理与创业者们看到了机会窗口，纷纷投入应用层开发，市场也期待从中涌现杀手级应用；

但迈进2025年，应用层的失落，以及DeepSeek的出现，再次将行业视线扭回基础模型能力的迭代，“模型即产品”的呼声，引发了新一轮的产品经理“存在危机”。

19 0 2025-09-01