2020李宏毅学习笔记——34.Network Compression(3_6)

时间 2021-01-02

原文原文链接

3.Knowledge Distillation（知识蒸馏）整个知识蒸馏过程中会用到两个模型：大模型（Teacher Net）和小模型（Student Net）。 3.1 具体方法先用大模型在数据集上学习到收敛，并且这个大模型要学的还不错，因为后面我们要用大模型当老师来教小模型学习嘛，如果大模型本身都没学好还教个锤子，对吧？1和7长得蛮像的。所以这里的损失函数用的是交叉熵，不能用简单的平方差之

>>阅读原文<<