知识蒸馏

知识蒸馏 Distilling the Knowledge in a Neural Network 这篇文章是2015年Hiton大神完成的一项黑科技技术,其第一次涉及了知识蒸馏(暗知识提取)的概念。可以从迁移学习和模型压缩的角度去理解这件事。 重点在于提出soft target来辅助hard target一起训练,而soft target来自于大模型的预测输出,为什么要用soft target?
相关文章
相关标签/搜索