
5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
5%参数比肩DeepSeek满血R1!北大“小”模型靠分合蒸馏,打破推理成本下限
只用5%的参数,数学和代码能力竟然超越满血DeepSeek?
北京大学杨仝教授团队近期发布了其在高效大型语言模型研究方向的一项新成果——FairyR1-32B模型。
该模型基于DeepSeek-R1-Distill-Qwen-32B基座,通过结合微调与模型合并技术构建。
20
0
2025-09-05