梯度消失、梯度爆炸

反向传播算法(即BP算法)是从输出层反向传到输入层,逐层传递误差梯度,进而进行权重的更新。 训练很深的神经网络时,随着层数的增加,导数会出现指数级的下降,则导致梯度消失。或者指数级的增加,导致梯度爆炸;本质是梯度传递的链式法则所导致的矩阵高次幂(反向传播会逐层对函数求偏导相乘)。 1 梯度消失 1.1 原因 在深层网络中,如果激活函数的导数小于1,根据链式求导法则,靠近输入层的参数的梯度因为乘了很
相关文章
相关标签/搜索