
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek
让SFT重新伟大!CMU等华人学者提出全新「批判式微调」,媲美复刻版DeepSeek
在面对复杂的推理任务时,SFT往往让大模型显得力不从心。最近,CMU等机构的华人团队提出了「批判性微调」(CFT)方法,仅在 50K 样本上训练,就在大多数基准测试中优于使用超过200万个样本的强化学习方法。
模仿是传统语言模型训练的主要方式。LLM在解决现实世界问题方面之所以表现出前所未有的性能,其中一项核心技术是监督微调(SFT)。
20
0
2025-09-02