neng8科技快讯网AI人工智能前沿资讯_汽车数码相机评测_手机电脑硬件百科

只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

只要9美元!LoRA+强化学习,DeepSeek 1.5B推理性能暴涨20%

只用9美元,在数学基准测试AIME 24上,实现了超过20%的推理性能提升!


来自南加州大学(University of Southern California,USC)的研究团队,基于LoRA的强化学习(RL)训练了1.5B推理模型——


这种极简的方法训练出的模型不仅能与当前最先进的强化学习推理模型相媲美,有时甚至超越它们,即便它们是基于相同底座模型构建的。

14 0 2025-09-05