
WebRL – 清华联合智谱AI推出的自进化在线课程强化学习框架
WebRL是清华大学、智谱AI联合推出的自我进化的在线课程强化学习框架,训练使用开放大型语言模型(LLMs)的高性能网络代理。WebRL动态生成任务、结果监督奖励模型(ORM)评估任务成功与否,及自适应强化学习策略,解决训练任务稀缺、反馈信号稀疏和在线学习中的策略分布漂移等挑战。
22
0
2025-08-31