对于梯度消失和梯度爆炸的理解

一、梯度消失、梯度爆炸产生的原因    说白了,其实就是矩阵的高次幂导致的。在多层神经网络中,影响因素主要是权值和激活函数的偏导数。 1.1 前馈网络   假设存在一个网络结构如图:   其表达式为:     若要对于w1求梯度,根据链式求导法则,得到的解为:     通常,若使用的激活函数为sigmoid函数,其导数:   这样可以看到,如果我们使用标准化初始w,那么各个层次的相乘都是0-1之间
相关文章
相关标签/搜索