蒸馏法训练网络

时间 2021-01-16

原文原文链接

《Distilling the Knowledge in a Neural Network》摘要在ML领域中有一种最为简单的提升模型效果的方式，在同一训练集上训练多个不同的模型，在预测阶段采用综合均值作为预测值。但是，运用这样的组合模型需要太多的计算资源，特别是当单个模型都非常大的时候。已经有相关的研究表明，复杂模型或者组合模型的中“知识”通过合适的方式是可以迁移到一个相对简单模型之中，进而方