batch normalization 为什么有效?

  4.1 Normalization 的权重伸缩不变性   从两方面来看, 1、权重伸缩不变性可以有效地提高反向传播的效率。       主要体现在对x求导。 2.权重伸缩不变性还具有参数正则化的效果,可以使用更高的学习率。      主要体现在对w求导。     意思是,如果某一次更新使得w变得很大,则lambada系数一定很大,那么梯度就减小了。在一定程度上体现了参数正则化,     不让参
相关文章
相关标签/搜索