RNN梯度消失和爆炸

原文:链接 也可以参考:解释的也很清晰 建议先看第一个 一,经典的RNN结构如下图所示:   假设我们的时间序列只有三段,  为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下: 假设在t=3时刻,损失函数为  。 则对于一次训练任务的损失函数为  ,即每一时刻损失值的累加。 使用随机梯度下降法训练RNN其实就是对  、  、  以及  求偏导,并不断调整它们以使L尽可能达到最小的过程
相关文章
相关标签/搜索