neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

微软| 搞定长时程、跨应用的Agent,竟然只靠<20%的摘要记忆,反超全文投喂

作为大家的测评博主,我最近发现一个巨有意思的现象:


现在市面上大部分评估 Agent 的基准测试,倾向于考核“单项技能”,而非“综合任务”。比如,你让 AI 点份外卖,它能完成;但如果要求它策划一场涵盖预算、选址、菜单、宾客邀请与流程安排的晚宴,它很可能就原地就 G 了。


这种“偏科”现象并非我的主观感受。

17 0 2025-09-04
TinyTroupe – 微软推出的多智能体角色模拟库

TinyTroupe – 微软推出的多智能体角色模拟库

TinyTroupe是microsoft推出的实验性Python库,用在模拟具有特定个性、兴趣和目标的人工代理(TinyPersons),在模拟环境(TinyWorld)中进行互动。TinyTroupe基于大型语言模型(如GPT-4)生成逼真的行为,研究人类行为和消费者类型。TinyTroupe的目标是基于模拟环境理解人类行为,在生产力和商业场景中提供启示。
20 0 2025-08-31
TextDiffuser-baidu092 – 微软等推出的AI图像文本渲染融合框架

TextDiffuser-baidu092 – 微软等推出的AI图像文本渲染融合框架

Text-Diffuser 2是由来自微软研究院、香港科技大学和中山大学的研究人员最新推出的一个基于扩散模型的文本渲染方法,旨在解决图像扩散模型生成文字时在灵活性、自动化、布局预测能力和风格多样性方面的局限性,以提高生成图像中视觉文本的质量和多样性。
19 0 2025-08-31
TaskWeaver – 微软推出代码优先的AI智能体框架

TaskWeaver – 微软推出代码优先的AI智能体框架

TaskWeaver是由微软推出的一个代码优先的AI智能体框架,专注于无缝规划和执行数据分析任务。基于代码片段解释用户请求,高效协调各种插件(以函数形式)执行数据分析任务,支持状态化的执行方式。TaskWeaver支持丰富的数据结构,支持用户封装自定义算法作为插件,整合领域特定知识提高任务执行的可靠性。
21 0 2025-08-31
Phi-baidu093 – 微软最新推出的新一代小模型系列

Phi-baidu093 – 微软最新推出的新一代小模型系列

Phi-3是微软研究院推出的新一代系列先进的小语言模型,包括phi-3-mini、phi-3-small和phi-3-medium三个不同规模的版本。这些模型在保持较小的参数规模的同时,通过精心设计的训练数据集和优化的算法,实现了与大型模型相媲美的语言理解和推理能力。
19 0 2025-08-30
AutoGen Studio – 微软开源的零代码构建多智能体系统的AI工具

AutoGen Studio – 微软开源的零代码构建多智能体系统的AI工具

AutoGen Studio 是微软研究院推出的一款开源界面工具,旨在简化多智能体系统的构建、调试和评估过程。AutoGen Studio提供一个基于 Web 的交互式界面和 Python API,支持用户拖放和声明式规范定义智能体及工作流,无需编写代码。
24 0 2025-08-28