Knowledge Distillation via Route Constrained Optimization

Motivation 已有的KD方法提高性能都是基于一个假设:teacher模型能够提供一种弱监督,且能被一个小student网络学习,可是实际上一个收敛的大网络表示空间很难被student学习,这会致使congruence loss很高 所以本文提出一种策略route constrained optimization,根据参数空间的route去选择teacher的参数,一步一步的指导studen
相关文章
相关标签/搜索