Distilling the Knowledge in a Neural Network 论文笔记

时间 2020-12-24

原文原文链接

论文：https://arxiv.org/abs/1503.02531 一、简介对于几乎所有的机器学习算法，一种简单的提高性能的方法，就是使用同样的数据集训练多个不同的模型，测试时取他们的各自预测值的加权平均作为整个算法的最终输出结果。然而，这样做的缺点也是非常明显的，多个模型的集合体积庞大，且运算需求极大，难以部署在大量用户的机器上。因此，本文主要做出了以下两点贡献：提出一