neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

作为大家的测评博主,我最近发现一个巨有意思的现象:


现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。


这种“偏科”现象并非我的主观感受。

18 0 2025-09-04