RNN & LSTM & GRU 的原理与区别

时间 2019-11-06

标签 rnn lstm gru 原理区别繁體版

原文原文链接

RNN

循环神经网络，是非线性动态系统，将序列映射到序列，主要参数有五个： $[W_{h v}, W_{h h}, W_{o h}, b_{h}, b_{o}, h_{0}]$ ，典型的结构图以下：html

和普通神经网络同样，RNN有输入层输出层和隐含层，不同的是RNN在不一样的时间t会有不一样的状态，其中t-1时刻隐含层的输出会做用到t时刻的隐含层.
参数意义是: $W_{h v}$ :输入层到隐含层的权重参数， $W_{h h}$ :隐含层到隐含层的权重参数， $W_{o h}$ ：隐含层到输出层的权重参数， $b_{h}$ :隐含层的偏移量, $b_{o}$ 输出层的偏移量， $h_{0}$ :起始状态的隐含层的输出，通常初始为0.
不一样时间的状态共享相同的权重w和偏移量b

RNN的计算方式

给定一个损失函数 $L (z, y) = \sum_{t = 1}^{T} L (z_{t}, y_{t})$ git

RNN由于加入了时间序列，所以训练过程也是和以前的网络不同，RNN的训练使用的是BPTT(Back Prropagation Through TIme),该方法是由Werbo等人在1990年提出来的。github

上面的算法也就是求解梯度的过程，使用的也是经典的BP算法，并无什么新鲜的。可是值得一提的是，在 t-1 时刻对 $h_{t - 1}$ 的求导值，也需加上t时刻的求导中对 $h_{t - 1}$ 的求导值，所以BPTT也是一个链式的求导过程。算法

可是由于上面算法中的第10行，在训练t时刻的时候，出现了t-1的参数，所以对单个的求导就变成了对整个以前状态的求导之和。网络

也正是由于存在长依赖关系，BPTT没法解决长时依赖问题(即当前的输出与前面很长的一段序列有关，通常超过十步就无能为力了)，由于BPTT会带来所谓的梯度消失或梯度爆炸问题(the vanishing/exploding gradient problem)。函数

这篇文章很好的解释了为何会产生梯度消失和为何会梯度爆炸的问题，其实主要问题就是由于在BPTT算法中，以w为例，其求导过程的链太长，而太长的求导链在以tanh为激活函数（其求导值在0~1之间的BPTT中，连乘就会使得最终的求导为0，这就是梯度消失问题，也就是t时刻已经学习不到t-N时刻的参数了。固然，有不少方法去解决这个问题，如LSTMs即是专门应对这种问题的，还有一些方法，好比设计一个更好的初始参数以及更换激活函数（如换成ReLU激活函数）。post

参数量

model.add(Embedding(output_dim=32, input_dim=2800, input_length=380))
model.add(SimpleRNN(units=16))
model.add(Dense(uints=256, activation=relu))
...
model.summary()
#output
simple_rnn_1 (SimpleRNN) param # 784
dense_1 (Dense) param # 4352

其中：784=16+1616+1632（ $W_{h v}$ + $W_{h h}$ + $b_{h}$ ）学习

LSTM

假设咱们试着去预测“I grew up in France... I speak fluent French”最后的词。当前的信息建议下一个词多是一种语言的名字，可是若是咱们须要弄清楚是什么语言，咱们是须要先前提到的离当前位置很远的 France的上下文的。这说明相关信息和当前预测位置之间的间隔就确定变得至关的大。ui

不幸的是，在这个间隔不断增大时，RNN会丧失学习到链接如此远的信息的能力。在理论上，RNN绝对能够处理"长期依赖"问题。人们能够仔细挑选参数来解决这类问题中的最初级形式，但在实践中，RNN 确定不可以成功学习到这些知识。Bengio, et al.等人对该问题进行了深刻的研究，他们发现一些使训练 RNN 变得很是困难的根本缘由。atom

然而，幸运的是，LSTM 并无这个问题！

LSTM 由Hochreiter & Schmidhuber (1997)提出，并在近期被Alex Graves进行了改良和推广。在不少问题，LSTM 都取得至关巨大的成功，并获得了普遍的使用。

LSTM 经过刻意的设计来避免长期依赖问题。记住长期的信息在实践中是 LSTM 的默认行为，而非须要付出很大代价才能得到的能力！

全部 RNN 都具备一种重复神经网络模块的链式的形式。在标准的 RNN 中，这个重复的模块只有一个很是简单的结构。

LSTM 一样是这样的结构，可是重复的模块拥有一个不一样的结构。不一样于单一神经网络层，以一种很是特殊的方式进行交互。

核心思想

LSTM 中的第一步是决定咱们会从细胞状态中丢弃什么信息。这个决定经过一个称为忘记门层完成。

下一步是肯定什么样的新信息被存放在细胞状态中。

咱们把旧状态与 $f_{t}$ 相乘，丢弃掉咱们肯定须要丢弃的信息。接着加上 $i_{t} * {\tilde{C}}_{t}$ 。这就是新的候选值，根据咱们决定更新每一个状态的程度进行变化。

最终，咱们须要肯定输出什么值。这个输出将会基于咱们的细胞状态，可是也是一个过滤后的版本。

咱们到目前为止都还在介绍正常的 LSTM。可是不是全部的 LSTM 都长成一个样子的。实际上，几乎全部包含 LSTM 的论文都采用了微小的变体。

图中最上面的一条线的状态即 s(t) 表明了长时记忆，而下面的 h(t)则表明了工做记忆或短时记忆。

参数量

model.add(Embedding(output_dim=32, input_dim=2800, input_length=380))
model.add(LSTM(32))
model.add(Dense(uints=256, activation=relu))
...
model.summary()
#output
lstm_1 (LSTM) param # 8320

其中：8320=(32+32)324+4*32（ $W_{o}$ + $W_{C}$ + $W_{i}$ + $W_{f}$ + $b_{o}$ + $b_{C}$ + $b_{i}$ + $b_{f}$ ）。

GRU

LSTM有不少变体，其中较大改动的是Gated Recurrent Unit (GRU)，这是由 Cho, et al. (2014)提出。它将忘记门和输入门合成了一个单一的更新门。一样还混合了细胞状态和隐藏状态，和其余一些改动。最终的模型比标准的 LSTM模型要简单。效果和LSTM差很少，可是参数少了1/3，不容易过拟合。

参考：

理解 LSTM 网络

来源： http://www.javashuo.com/article/p-dqonozzc-kb.html

RNN & LSTM & GRU 的原理与区别

RNN

RNN的计算方式

参数量

LSTM

核心思想

参数量

GRU

参考：

来自为知笔记(Wiz)