论文笔记：Deep Residual Learning for Image Recognition

时间 2020-12-24

原文原文链接

一.简介论文一开始就强调了网络深度非常重要。但是实验证实通过简单的叠加网络来增加深度并不能提高效果。原因有两点： 1.梯度消失和梯度爆炸，阻碍了网络的收敛。这个问题现在已经通过(normalized initialization 和 intermediate normalization layers方法)得到了很大的解决，10层左右的网络通过随机梯度下降可以很好的收敛。 2.当网络开始收敛，