RNN梯度消失与爆炸原理~~~~

转自知乎作者:沉默中的思索 原文地址:https://zhuanlan.zhihu.com/p/28687529 经典的RNN结构如下图所示:     假设我们的时间序列只有三段,  为给定值,神经元没有激活函数,则RNN最简单的前向传播过程如下: 假设在t=3时刻,损失函数为  。 则对于一次训练任务的损失函数为  ,即每一时刻损失值的累加。 使用随机梯度下降法训练RNN其实就是对  、  、 
相关文章
相关标签/搜索