neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。


但目前尚无奥林匹克级别的、多学科的基准,能够全面评估综合解决问题的能力,以全面检验人工智能的综合认知能力。


上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队推出多学科认知推理基准OlympicArena,即使是GPT-4o 也只达到了 34.01% 的整体准确率,而其他开源模型的整体准确率也难以达到20%。

18 0 2025-09-04