neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

推理正确率下降65.5%！斯坦福、MIT等用「不等式」拷问AI逻辑极限

大语言模型在数学证明中常出现推理漏洞，如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准，将不等式证明拆解为可验证的子任务。结果显示，模型的推理正确率远低于答案正确率，暴露出其在数学推理上的缺陷。

在大模型频频给出「看似完美」答案的今天，我们是否已经迎来了真正「会推理」的AI？

多位网友分享了自己的经历，「我试过用LLMs做正割和正切的定理的证明，但是结果错误的太多了！」

17 0 2025-09-01

‹‹ 1 ››

« 2026年6月 »
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

控制面板

您好，欢迎到访网站！
查看权限

搜索

最近发表