梯度消失和梯度爆炸的原因和解决方案

产生消失的梯度问题的原因 注:实际上就是梯度计算过程中,w值和激活函数的导数值相乘大于1或者小于1的问题,如果是大于1,那么经历过很多个隐藏层梯度就会越来越大,即梯度爆炸,如果是小于1当然就是梯度消失啦!!! 所以w初始化大,w值和激活函数的导数值相乘可能越来越大,造成梯度爆炸。 所以w初始化小,w值和激活函数的导数值相乘可能越来越小,造成梯度消失。 sigmoid的导数的最大值就很小,每一层的s
相关文章
相关标签/搜索