neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

RAGEN – 训练大模型推理 Agent 的开源强化学习框架

RAGEN – 训练大模型推理 Agent 的开源强化学习框架

RAGEN是开源的强化学习框架,用于在交互式、随机环境中训练大型语言模型(LLM)推理Agent。基于StarPO(State-Thinking-Action-Reward Policy Optimization)框架,通过多轮交互优化整个轨迹,支持PPO、GRPO等多种优化策略。
23 0 2025-08-30