RNN梯度消失和爆炸

时间 2020-12-27

原文原文链接

原文：链接也可以参考：解释的也很清晰建议先看第一个一，经典的RNN结构如下图所示：假设我们的时间序列只有三段，为给定值，神经元没有激活函数，则RNN最简单的前向传播过程如下：假设在t=3时刻，损失函数为。则对于一次训练任务的损失函数为，即每一时刻损失值的累加。使用随机梯度下降法训练RNN其实就是对、、以及求偏导，并不断调整它们以使L尽可能达到最小的过程