一文读懂:梯度消失(爆炸)及其解决方法

梯度消失问题和梯度爆炸问题,总的来说可以称为梯度不稳定问题。 【要背住的知识】:用ReLU代替Sigmoid,用BN层,用残差结构解决梯度消失问题。梯度爆炸问题的话,可以用正则化来限制。sigmoid的导数是【0,0.25】. 出现原因 两者出现原因都是因为链式法则。当模型的层数过多的时候,计算梯度的时候就会出现非常多的乘积项。用下面这个例子来理解: 这是每层只有1个神经元的例子,每个神经元的激活
相关文章
相关标签/搜索