【模型压缩】知识蒸馏经典解读

作者 | 小小@字节跳动 整理 | NewBeeNLP 写在前面 知识蒸馏是一种模型压缩方法,是一种基于“教师-学生网络思想”的训练方法,由于其简单,有效,在工业界被广泛应用。这一技术的理论来自于2015年Hinton发表的一篇神作:Distilling the Knowledge in a Neural Network[1] Knowledge Distillation,简称KD,顾名思义,就是
相关文章
相关标签/搜索