知识蒸馏

知识蒸馏即小模型从一个大模型学习知识,使得小模型获取接近大模型的结果。网络

相似迁移学习,和预训练相比,蒸馏从网络学习,预训练则从数据学习。学习

 

蒸馏能够将teacher模型的输出做为student模型的的soft label。get

也能够从中间的特征学习入门

即蒸馏的过程能够看作学习大模型不一样的区域。数据

 

大模型和小模型的特征对应是一个难点。co

 

入门:ps

https://zhuanlan.zhihu.com/p/81467832模型

 

综述:ab

https://zhuanlan.zhihu.com/p/51563760tar