The Sandwich Rule

目标:训练一个可以直接以任意宽度运行的单一网络。其实是在权重共享的条件下,我们可以根据不同的硬件设备挑选不同宽度的网络,不再重训练一个权重。 其中每个输入通道或通道组可以被视为输出神经元的残差分量。所以,更宽的网络的性能不应该比其细小的网络更差(小网络的准确性可以使一个大网络后面的连接为0来实现)。换言之完全聚合的特征 y n y^n yn和部分聚合的特征 y k y^k yk的残差 δ \del
相关文章
相关标签/搜索