
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现,强化学习无需外部奖励信号
UC Berkeley团队共同一作Xuandong Zhao把这项成果称为:
大模型无需接触真实答案,仅通过优化自己的信心,就能学会复杂推理。

11
0
2025-09-06