ai数学思维_拜读未来科技摆渡人生

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

国产AI模型多点开花。

AI大模型权威评测：豆包中文对话最强，OpenAI o1推理和数学占优

12 0 2025-09-06

AI数学神话破灭！FrontierMath让LLM集体几乎“交白卷”：正确率不超过2%

大型语言模型（LLM）最近在各种数学benchmark上疯狂刷分，动辄90%以上的正确率，搞得好像要统治数学界一样。然而，Epoch AI看不下去了，联手60多位顶尖数学家，憋了个大招——FrontierMath，一个专治LLM各种不服的全新数学推理测试！结果惨不忍睹，LLM集体“翻车”，正确率竟然不到2%！

18 0 2025-09-02

一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30