
专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
专治大模型“刷题”!贾佳亚团队新基准让模型只挑错不做题,GPT-4得分不到50
大模型测试能拿高分,实际场景中却表现不佳的问题有解了。
贾佳亚团队联合多家知名高校提出了一种全新的测评方法,让一些模型立马现出了原型。
这下不用担心大模型“刷题”太多,测试集无法体现真实水平了。

14
0
2025-09-04