解决梯度消失梯度爆炸强力推荐的一个算法-----GRU（门控循环神经⽹络）

时间 2021-08-15 标签深度学习算法

LSTM的一种变体或优化----GRU

在循环神经⽹络中的梯度计算⽅法中，我们发现，当时间步数较⼤或者时间步较小时，循环神经⽹络的梯度较容易出现衰减或爆炸。虽然裁剪梯度可以应对梯度爆炸，但⽆法解决梯度衰减的问题。通常由于这个原因，循环神经⽹络在实际中较难捕捉时间序列中时间步距离较⼤的依赖关系。

**门控循环神经⽹络（gated recurrent neural network）**的提出，正是为了更好地捕捉时间序列中时间步距离较⼤的依赖关系。它通过可以学习的⻔来控制信息的流动。其中，门控循环单元（gatedrecurrent unit，GRU）是⼀种常⽤的门控循环神经⽹络。

GRU它引⼊了重置⻔（reset gate）和更新⻔（update gate) 的概念，从而修改了循环神经⽹络中隐藏状态的计算⽅式。

GRU动图

LSTM与GRU区别

LSTM与GRU二者结构十分相似，不同在于：

新的记忆都是根据之前状态及输入进行计算，但是GRU中有一个重置门控制之前状态的进入量，而在LSTM里没有类似门；
产生新的状态方式不同，LSTM有两个不同的门，分别是遗忘门(forget gate)和输入门(input gate)，而GRU只有一种更新门(update gate)；
LSTM对新产生的状态可以通过输出门(output gate)进行调节，而GRU对输出无任何调节。

GRU的优点是这是个更加简单的模型，所以更容易创建一个更大的网络，而且它只有两个门，在计算性上也运行得更快，然后它可以扩大模型的规模。

LSTM更加强大和灵活，因为它有三个门而不是两个。