
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
DeepSeek的GRPO会导致模型崩溃?看下Qwen3新范式GSPO
众所周知,大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」,开发者利用大规模文本数据集训练模型,让它学会预测句子中的下一个词。第二阶段是「后训练」,旨在教会模型如何更好地理解和执行人类指令。
在 LLM 后训练阶段,似乎是一个强化学习的特殊形式。用于大语言模型(LLMs)微调的强化学习(RL)算法正沿着一条明确的演进路径持续发展。
19
0
2025-09-01