【论文】Distilling the Knowledge in a Neural Network

为什么出现知识蒸馏 集成模型和预训练好的模型效果会很好,但往往都会需要很大的内存空间和计算资源,这样对应用于工业界非常的不友好。所以我们希望压缩模型,使得小模型也能具有和大模型同样好的效果。为了达到这个目的,提出了知识蒸馏的做法。 蒸馏的概念 知识蒸馏使用的是Teacher-Student模型,原模型为老师(知识的输出者),新模型为学生(知识的学习者),我们的目标是让新模型近似于原模型。知识蒸馏分
相关文章
相关标签/搜索