
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
国产AI模型多点开花。

13
0
2025-09-06

AI大模型权威评测:豆包中文对话最强,OpenAI o1推理和数学占优
国产AI模型多点开花。


AI数学神话破灭!FrontierMath让LLM集体几乎“交白卷”:正确率不超过2%
大型语言模型(LLM)最近在各种数学benchmark上疯狂刷分,动辄90%以上的正确率,搞得好像要统治数学界一样。然而,Epoch AI看不下去了,联手60多位顶尖数学家,憋了个大招——FrontierMath,一个专治LLM各种不服的全新数学推理测试!结果惨不忍睹,LLM集体“翻车”,正确率竟然不到2%!

AI颠覆数学研究!陶哲轩借AI破解数学猜想,形式化成功惊呆数学圈
