ResNet论文解读

第一次提出残差结构,主要解决两个问题网络

  • 梯度消失
  • 随着网络深度增长,性能没有提高反而有所降低

以下图,原本要学习H(x),如今转换为F(x)+x,两者效果相同,可是优化难度降低,而且由于多了一个x,使得求导时总有1,避免了梯度消失问题。函数

F(X)+X的公式能够经过在前馈网络中作一个“快捷链接”来实现(如图2) ,快捷链接跳过一个或多个层。在咱们的用例中,快捷链接简单的执行自身映射,它们的输出被添加到叠加层的输出中。自身快捷链接既不会添加额外的参数也不会增长计算复杂度。整个网络依然能够用SGD+反向传播来作端到端的训练性能

若是添加的层能够以恒等的方式被构造为自身映射,一个加深的模型的训练偏差必定会不大于较浅的对应模型。退化问题代表,求解过程当中在使多个非线性层逼近自身映射时有困难。而用残差的方法重构它,若是自身映射达到最佳的,则求解可能仅仅是更新多个非线性层的权值向零去接近自身映射。学习

残差函数F的形式是灵活的,本文的实验包括了F为2层或3层的状况,虽然更多的层也是能够的,但若是只有一个层(公式1)会等价于一个线性层,y = W1x + x,这样一来就没有可见的优点了。优化

相关文章
相关标签/搜索