Internal Covariate Shift与Normalization

时间 2021-01-02

原文原文链接

引言 Batch norm在深度学习中已经是一个常用且有效的方法，用来加速网络收敛及防止梯度消失等神经网络常见的问题，那么batch norm为什么有效呢？从源头出发，神经网络难以训练的原因是什么？ Internal Covariate Shift 深度神经网络涉及到很多层的叠加，而每一层的参数更新会导致上层的输入数据分布发生变化，通过层层叠加，高层的输入分布变化会非常剧烈，这就使得高层需要不断