论文笔记:Deep Residual Learning for Image Recognition

一.简介 论文一开始就强调了网络深度非常重要。 但是实验证实通过简单的叠加网络来增加深度并不能提高效果。 原因有两点: 1.梯度消失和梯度爆炸,阻碍了网络的收敛。这个问题现在已经通过(normalized initialization 和 intermediate normalization layers方法)得到了很大的解决,10层左右的网络通过随机梯度下降可以很好的收敛。 2.当网络开始收敛,
相关文章
相关标签/搜索