
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
推理正确率下降65.5%!斯坦福、MIT等用「不等式」拷问AI逻辑极限
大语言模型在数学证明中常出现推理漏洞,如跳步或依赖特殊值。斯坦福等高校团队提出IneqMath基准,将不等式证明拆解为可验证的子任务。结果显示,模型的推理正确率远低于答案正确率,暴露出其在数学推理上的缺陷。
在大模型频频给出「看似完美」答案的今天,我们是否已经迎来了真正「会推理」的AI?
多位网友分享了自己的经历,「我试过用LLMs做正割和正切的定理的证明,但是结果错误的太多了!」
17
0
2025-09-01