
苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
苹果也在蒸馏大模型,给出了蒸馏Scaling Laws
众所周知,知识蒸馏技术当前正被大模型领域广泛使用,它可以在大幅压缩模型体量的同时保持一定的性能、降低模型时延、提升模型精度,与此同时还能对知识域
进行集成和迁移。
近日,苹果研究人员提出了一种蒸馏扩展定律(Distillation Scaling Laws),基于计算预算及其在学生和教师之间的分配,我们现在开始可以估算蒸馏模型的性能
1
0
2025-09-08