
微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂
微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂
作为大家的测评博主,我最近发现一个巨有意思的现象:
现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。
这种“偏科”现象并非我的主观感受。
18
0
2025-09-04