LSTM理解

时间 2020-08-04

标签 lstm 理解繁體版

原文原文链接

简介

　　LSTM(Long short-term memory,长短时间记忆)是一种特殊的RNN，主要是为了解决长序列训练过程当中的梯度消失问题。如下先从RNN介绍。 html

简说RNN

　　RNN(Recurrent Neural Network,循环神经网络)是一种处理序列数据的神经网络。下图是它的结构：网络

RNN优势：它能处理序列数据，而且有记忆能力，可以利用上文信息。函数

RNN缺点：学习

梯度消失：对于获取长距离依赖的效果不是很好(即若是上文信息离当前输入距离太远的话，理论上它是可以记得上文信息，可是事实上并非这样，因此它并不能很好地处理长距离依赖问题)
梯度爆炸
RNN较难训练

注：长距离依赖处理效果不佳的缘由是使用tanh或者relu做为激活函数。（若是是sigmoid函数则不会）spa

LSTM结构设计

　　LSTM也是一种RNN，所以它也是一种循环结构，不一样的是RNN神经元内部只用tan层进行计算，而LSTM是有4个全链接层进行计算的，LSTM的内部结构以下图所示。orm

　　上图中符号的含义以下图所示，黄色方框相似于CNN中的激活函数操做，粉色圆圈表示点操做，单箭头表示数据流向，下图中第四个符号表示两个向量的链接操做，第五个符号表示向量的拷贝操做，且上图中的σ表示sigmoid层(该层的输出时0-1的值，0表示不能经过，1表示能经过)。 htm

　　如今来描述LSTM的内部操做，具体内容以下图所示：blog

　　LSTM的核心是细胞状态——最上层的横穿整个细胞的水平线，它经过门来控制信息的增长或者删除。get

　　那么什么是门呢？门是一种用来选择信息经过与否的方式，它由一个sigmoid层和点乘操做组成。LSTM共有三个门，分别是遗忘门，输入门和输出门，具体内容以下所述：

　　(1)遗忘门：遗忘门决定丢弃哪些信息，输入是上一个神经元细胞的计算结果h_t-1以及当前的输入向量x_t,两者联接并经过遗忘门后(sigmoid会决定哪些信息留下，哪些信息丢弃)，会生成一个0-1向量Γ^f_t(维度与上一个神经元细胞的输出向量C_t-1相同)，Γ^f_t与C_t-1进行点乘操做后，就会获取上一个神经元细胞通过计算后保留的信息。遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉。

　　(2)输入门：表示要保存的信息或者待更新的信息，如上图所示是h_t-1与x_t的链接向量，通过sigmoid层后获得的结果Γⁱ_t，这就是输入门的输出结果了。可是接下来咱们要计算该神经元细胞的输出结果，即新细胞的更新状态：C_t，C_t= C_t-1· Γ^f_t + Γⁱ_t· ^~c_t(其中^~c_t= tanh(h_t-1_，x_t))，文字描述是：输入门的计算结果点乘 h_t-1与x_t的链接向量通过tanh层计算的结果后，再与上一个神经元细胞通过计算后保留的信息进行相加，则是最终要输出的C_t_。输入门控制当前计算的新状态以多大程度更新到记忆单元中。

　　(3)输出门：输出门决定当前神经原细胞输出的隐向量h_t，h_t与C_t不一样，h_t要稍微复杂一点，它是C_t进过tanh计算后与输出门的计算结果进行点乘操做后的结果，用公式描述是：h_t= tanh(c_t) · Γ^o_t。输出门控制当前的输出有多大程度上取决于当前的记忆单元。

　　在一个训练好的网络中，当输入的序列中没有重要信息时，LSTM的遗忘门的值接近于1，输入门的值接近于0，此时过去的记忆会被保存，从而实现了长期记忆的功能；当输入的序列中出现了重要的信息时，LSTM应当把其存入记忆中，此时其输入门的值会接近于1；当输入的序列中出现了重要信息，且该信息意味着以前的记忆再也不重要时，输入门的值接近于1，而遗忘门的值接近于0，这样旧的记忆被遗忘，新的重要信息被记忆。通过这样的设计，整个网络更容易学习到序列之间的长期依赖。

LSTM具体实现步骤

　　1、首先，输入上一个神经元细胞输出的隐藏层向量和当前神经元细胞的输入，并将其链接起来。

　　2、将步骤1中的结果传入遗忘门中，该层将删除不相关的信息。

　　3、一个备选层将用步骤1中的结果建立，这一层将保存可能的会加入细胞状态的值或者说信息。

　　4、将步骤1中的结果传入输入门中，这一层决定步骤4的备选层中哪些信息应该加入到细胞状态中去。

　　5、步骤2、3、4计算结束后，用这三个步骤计算后的向量和上一个神经元细胞传出的细胞状态向量来更新当前细胞的细胞状态。

　　6、结果就被计算完了。

　　7、将结果和新的细胞状态进行点乘则是当前细胞状态的隐向量。

LSTM如何避免梯度消失与梯度爆炸

　　RNN中的梯度消失/爆炸与CNN中的含义不一样，CNN中不一样的层有不一样的参数，每一个参数都有本身的梯度；而RNN中一样的权重在各个时间步中共享，因此最终的梯度等于各个时间步的梯度和。所以，RNN中的梯度不会消失，它只会遗忘远距离的依赖关系，而被近距离的梯度所主导。可是LSTM中的梯度传播有不少条路径，最主要的一条是当前细胞的状态更新这一过程，该过程当中只有逐元素的相乘和相加操做，梯度流最稳定，所以基本不会发生梯度消失或者梯度爆炸；可是其余的传播路径依然有梯度消失或者爆炸风险，而最终的梯度计算是各个梯度路径的和，所以LSTM仍然有梯度消失或者爆炸的风险，只是这个风险被大幅下降了。

总结

　LSTM优势：LSTM下降了梯度消失或者梯度爆炸的风险，而且比RNN具备更强的长距离依赖能力。

　LSTM缺点：

LSTM处理长距离依赖的能力依然不够，所以Transformer横空出世，它具备比LSTM更强的长距离依赖处理能力。
它的计算很费时。每一个细胞中都有4个全链接层(MLP)，所以若是LSTM的时间跨度很大的话，计算量会很大也很费时。

参考：http://www.javashuo.com/article/p-ykjffiyc-ne.html