A Gift from Knowledge Distillation:Fast Optiization,Network Minimization and Transfer Learning

A Gift from Knowledge Distillation_Fast Optiization,Network Minimization and Transfer Learning: 本文提出以下观点: (1)从教师网络萃取知识不一定只从最后的softmax层这一层,还可以从多个层提取。结构如下:   (2)将从教师网络学习到的知识用来对学生网络进行初始化,并在之后用主流的方法进行训练。算
相关文章
相关标签/搜索