北大cio_拜读未来科技摆渡人生

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

随着大语言模型（LLM）能力的快速迭代，传统评估方法已难以满足需求。如何科学评估 LLM 的「心智」特征，例如价值观、性格和社交智能？如何建立更全面、更可靠的 AI 评估体系？北京大学宋国杰教授团队最新综述论文（共 63 页，包含 500 篇引文），首次尝试系统性梳理答案。

北大团队发布首篇大语言模型心理测量学系统综述：评估、验证、增强

21 0 2025-09-02

连ChatGPT看了都直摇头的算法优化，被北大团队给搞定了。

测试表明，新研究能解验证集中90%的题目，包括NOIP、Codeforce、Leetcode等比赛中的分治和动态规划题目——这些题目，很多大模型也难以解决。

而且自家的普通笔电就能跑！

21 0 2025-09-02