deep issue_拜读未来科技摆渡人生

DeepSeek的GRPO会导致模型崩溃？看下Qwen3新范式GSPO

众所周知，大型语言模型的训练通常分为两个阶段。第一阶段是「预训练」，开发者利用大规模文本数据集训练模型，让它学会预测句子中的下一个词。第二阶段是「后训练」，旨在教会模型如何更好地理解和执行人类指令。

在 LLM 后训练阶段，似乎是一个强化学习的特殊形式。用于大语言模型（LLMs）微调的强化学习（RL）算法正沿着一条明确的演进路径持续发展。

19 0 2025-09-01

DeepSite 是基于 DeepSeek-V3 模型的在线开发工具，用户无需配置环境或安装软件，在网页上直接输入需求，快速生成游戏、应用或网页的代码，支持实时预览效果。

23 0 2025-08-28