什么是蒸馏
模型蒸馏:让笨学生偷学霸的「解题思路」
想象班里有个超级学霸(大模型):
每次考试都考100分,但做题超慢,一道题要写10页草稿纸你是学渣(小模型),想抄他的作业,但完全看不懂他的复杂步骤。
🚀传统方法:硬抄答案(直接训练小模型)
你只模仿学霸的最终答案(正确答案的标签)但遇到新题型就翻车,因为没学会背后的逻辑
🧠 模型蒸馏:偷学霸的「思考过程」
1,让学霸写详细解析 学霸做题时,不光写答案,还要标注: 这道题90%可能是A,但B选项也有5%可能(软标签)
2,用「错题本」教学生 老师(损失函数)检查:你的答案对不对(硬标签损失) 你的解题思路和学霸像不像(软标签损失)
3,故意让学霸「犯迷糊」 考试前给学霸喝杯奶茶(调高温度参数T),让他: 把「可能对」的选项也暴露出来(概率分布更平滑)
最终效果
学渣(小模型):做题速度超快(推理效率高)考试能考95分(接近大模型性能)但笔记本只有3页纸(模型体积小)
现实中的例子
把300GB的GPT-3「学霸」,压缩成0.5GB的手机端小模型自动驾驶系统用蒸馏模型实时识别路况,不用带笨重的计算设备
一句话总结
模型蒸馏就是:让小模型「山寨」大模型的思考习惯,而不是死记硬背答案!