neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024

70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024

70亿LLaMA媲美5400亿PaLM!MIT惊人研究用「博弈论」改进大模型|ICLR 2024

【新智元导读】大模型回答如何更可靠?MIT研究团队设计出「共识博弈」,将数学家常用的博弈论引入LLM改进中。没想到,LLaMA-7B的表现,击败了LLaMA-65B,甚至与PaLM-540B相媲美。


遇到一个问题用不同表达方式prompt时,大模型往往会给出两种不同的答案。

14 0 2025-09-03
实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

数学题, 一直是检验 AI 实力的 “硬核考场” —— 公式推导、逻辑链条、抽象思维缺一不可 。最近,我好了几天时间对国内外 7 款大厂模型展开了一场 “数学高考 ”,用阿里全球数学竞赛 + 中国奥赛真题实测它们的智商上限。


实测国内外大模型数学能力:YiXin-Distill-Qwen-72B登顶,半数大厂模型不及格?

16 0 2025-09-02