Highway Networks VS Deep Residual Learning

时间 2020-12-23

原文原文链接

简介但是实验证实通过简单的叠加网络来增加深度并不能提高效果。原因有两点： 1.梯度消失和梯度爆炸，阻碍了网络的收敛。这个问题现在已经通过(normalized initialization 和 intermediate normalization layers方法)得到了很大的解决，10层左右的网络通过随机梯度下降可以很好的收敛。 2.当网络开始收敛，新的问题暴露出来：随着网络深度的增加，准确