Batch Normalization基本原理详解

在实际训练过程中,经常出现隐含层因数据分布不均,导致梯度消失或不起作用的情况。如采用sigmoid函数或tanh函数为激活函数时,如果数据分布在两侧,这些激活函数的导数就接近于0。这样一来,BP算法得到的梯度也就消失了。 如何解决这个问题? Sergey Ioffe和Christian Szegedy两位学者提出了批标准化(BatchNormalization)方法。Batch Normaliza
相关文章
相关标签/搜索