neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

SWEET-baidu09RL – Meta 推出的多轮强化学习框架

admin|
17

SWEET-RL是Meta推出的多轮强化学习框架,专门用在训练大型语言模型(LLM)代理进行协作推理任务。SWEET-R基于训练时的额外信息(如参考解决方案)优化“批评者”模型,模型为每个步骤提供奖励,帮助“行动者”模型更好地分配信用、优化策略。SWEET-RL在ColBench基准测试中表现出色,相比其他先进算法,在后端编程和前端设计任务上的成功率和胜率提升6%,使Llama-3.1-8B模型的性能与等顶尖模型相媲美甚至超越。

(图片来源网络,侵删)
(图片来源网络,侵删)