batch normalization论文

时间 2020-12-22

原文原文链接

通过减少internal Covariate shift加速深度网络的训练。什么是internal Covariate shift? 由于前一层参数的变化导致了后一层输入分布的变化。这需要减少学习率并且需要小心地初始化网络，并且由于非线性激活层饱和很难进行继续训练。因此作者提出了BN。经过batch normazation我们可以使用更高的学习率进行训练，并不需要特意关注初始化，并且在一些情况