蒸馏法训练网络

《Distilling the Knowledge in a Neural Network》 摘要 在ML领域中有一种最为简单的提升模型效果的方式,在同一训练集上训练多个不同的模型,在预测阶段采用综合均值作为预测值。但是,运用这样的组合模型需要太多的计算资源,特别是当单个模型都非常大的时候。已经有相关的研究表明,复杂模型或者组合模型的中“知识”通过合适的方式是可以迁移到一个相对简单模型之中,进而方
相关文章
相关标签/搜索