Batch Normalization(2015,google) 论文阅读笔记

1.BN的提出   作者认为:网络训练过程中参数的不断改变导致后续每一层输入的分布也发生变化,而学习的过程又要使每一层适应输入的分布,因此我们不得不降低学习率、小心的初始化参数。作者将分布发生变化称之为 internal covariate shift(内部协变量转移)。   在进行数据预处理过程中,我们常将输入减去均值,甚至会对输入做白化,降维等操作,目的是为了加快训练。为什么减均值、白化可以加
相关文章
相关标签/搜索