
奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品
奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品
为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。
但目前尚无奥林匹克级别的、多学科的基准,能够全面评估综合解决问题的能力,以全面检验人工智能的综合认知能力。
上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队推出多学科认知推理基准OlympicArena,即使是GPT-4o 也只达到了 34.01% 的整体准确率,而其他开源模型的整体准确率也难以达到20%。
18
0
2025-09-04