Correlation Congruence for Knowledge Distillation

Motivation 目前大多数KD框架的pipeline 一张图片送入teacher和student得到各自的feature和output 然后定义loss,拉进feature或者output的距离 但是他们都是直接在一个整图级别上做的,student很难学习到teacher的那种处理类内和类间的能力 如下图:白色空心圈是期望学习到的效果 左边是期望类间可以拉开,右边是期望类内可以聚拢 Meth
相关文章
相关标签/搜索