On the Efficacy of Knowledge Distillation

Motivation 实验观察到:并不是性能越好的teacher就能蒸馏(教)出更好的student,因此本文想梳理出影响蒸馏性能的因素 推测是容量不匹配的原因,导致student模型不能够mimic teacher,反而带偏了主要的loss 之前解决该问题的做法是逐步的进行蒸馏,但是效果也不好。 左边Teacher为WRN k-1,k是深度,Student是WRN16-1和DN40-12(Den
相关文章
相关标签/搜索