Knowledge Distillation via Route Constrained Optimization

Motivation 已有的KD方法提升性能都是基于一个假设:teacher模型可以提供一种弱监督,且能被一个小student网络学习,但是实际上一个收敛的大网络表示空间很难被student学习,这会导致congruence loss很高 因此本文提出一种策略route constrained optimization,根据参数空间的route去选择teacher的参数,一步一步的指导studen
相关文章
相关标签/搜索