neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

X-baidu09R1 – 基于强化学习的低成本训练框架

admin|2025-08-31

X-R1是基于强化学习的低成本训练框架，能加速大规模语言模型的后训练（Scaling Post-Training）开发。X-R1用极低的成本训练0.5B（5亿参数）规模的R1-Zero模型，仅需4块3090或4090 GPU，训练时间约1小时，成本低于10美元。X-R1支持更大规模的模型（如1.5B、7B、32B等），提供不同大小的数据集实现快速训练循环。

（图片来源网络，侵删）