2020李宏毅学习笔记——34.Network Compression(3_6)

3.Knowledge Distillation(知识蒸馏) 整个知识蒸馏过程中会用到两个模型:大模型(Teacher Net)和小模型(Student Net)。 3.1 具体方法 先用大模型在数据集上学习到收敛,并且这个大模型要学的还不错,因为后面我们要用大模型当老师来教小模型学习嘛,如果大模型本身都没学好还教个锤子,对吧?1和7长得蛮像的。所以这里的损失函数用的是交叉熵,不能用简单的平方差之
相关文章
相关标签/搜索