batch normalization论文

通过减少internal Covariate shift加速深度网络的训练。 什么是internal Covariate shift? 由于前一层参数的变化导致了后一层输入分布的变化。这需要减少学习率并且需要小心地初始化网络,并且由于非线性激活层饱和很难进行继续训练。 因此作者提出了BN。经过batch normazation我们可以使用更高的学习率进行训练,并不需要特意关注初始化,并且在一些情况
相关文章
相关标签/搜索