知识蒸馏(Distillation)

Hinton的文章《Distilling the Knowledge in a Neural Network》首次提出了知识蒸馏的概念,通过引入教师网络用以诱导学生网络的训练,实现知识迁移。所以其本质上和迁移学习有点像,但实现方式是不一样的。用“蒸馏”这个词来形容这个过程是相当形象的。用下图来解释这个过程。 教师网络:大规模,参数量大的复杂网络模型。难以应用到设备端的模型。 学生网络:小规模,参数
相关文章
相关标签/搜索