
Agent Q – MultiOn公司推出的AI智能体,可以自我学习进化
Agent Q是MultiOn公司联合斯坦福大学推出的自监督代理推理和搜索框架。Agent Q融合了引导式蒙特卡洛树搜索(MCTS)、AI自我批评和直接偏好优化(DPO)等技术,使AI模型能通过迭代微调和基于人类反馈的强化学习进行自我改进。
24
0
2025-08-27