resnet2 resNext

时间 2021-01-12

原文原文链接

resnet2 我们发现恒等映射h(XL)=XL在所有的变量实验中，误差减少最快，训练损失最小，而scaling，gating，和1x1卷积的skip 连接都会导致更高的训练损失，这些实验表明，保持一条‘干净’的信息路径（灰色箭头的路径）有助于简化优化工作。为了构造f(yl) = yl，我们考虑了pre-activation。图1表示了这个结构比原始结构更容易训练和推广。上图中，a到c的变化，