知识蒸馏即小模型从一个大模型学习知识,使得小模型获取接近大模型的结果。网络
相似迁移学习,和预训练相比,蒸馏从网络学习,预训练则从数据学习。学习
蒸馏能够将teacher模型的输出做为student模型的的soft label。get
也能够从中间的特征学习入门
即蒸馏的过程能够看作学习大模型不一样的区域。数据
大模型和小模型的特征对应是一个难点。co
入门:ps
https://zhuanlan.zhihu.com/p/81467832模型
综述:ab
https://zhuanlan.zhihu.com/p/51563760tar