再探循环神经网络

时间 2020-03-14

标签循环神经网络繁體版

原文原文链接

上一篇中，咱们讨论了循环神经网络相关的基本内容，今天咱们继续探讨一下循环神经网络还有那些须要注意的更高级的用法。python

下降过拟合

在以前的讨论中，咱们常常聊起过拟合的问题，咱们通常判断训练的网络什么状况下算做训练完成，查看其精度和损失时，也都看的是其过拟合以前的数据，避免过拟合的一种方法是用 dropout 方法，随机清零的方式去实现，可是在循环神经网络中，这个问题就有点复杂了。网络

人们在大量的实验中早已经发现，在循环层前进行 dropout 对于下降过拟合没什么帮助，甚至可能会影响网络的正常训练，在循环层中如何 dropout 是在 2015 年的一篇论文中提出来的，具体的方式是：在每个时间步中，使用相同的 dropout 掩码，而且将这个不随时间步变化的 dropout 掩码应用于层的内部循环激活，这样就能够将其学习的偏差传递下去，若是在 Keras 中使用 LSTM、GRU 等循环神经网络均可以经过设置 dropout（输入单元 dropout）和 recurrent_out （循环单元 dropout）来下降过拟合，通常状况下，最佳状况不会有大的降低，但会稳定更多，是调优网络的一个思路。用的方法是：函数

model.add(layers.GRU(32, dropout=0.2, recurrent_dropout=0.2, input_shape=(None, float_data.shape[-1])))

循环层堆叠

咱们训练网络通常的过程都是构建一个网络，在未出现严重过拟合前咱们都会尽量大的增长网络容量（让特征点更多），这有助于让网络模型更好的抓住数据的特征，对于循环神经网络，也是相似的思路，进行循环层的堆叠，且通常状况下，都会让数据变得更好，这是最经常使用其有效（使数据变好，具体提升程度视状况而不一样）的调优方法，Google 产品中有挺多相似的作法。用的方法是：学习

model.add(layers.GRU(32, dropout=0.1, recurrent_dropout=0.5, return_sequences=True, input_shape=(None, float_data.shape[-1])))
model.add(layers.GRU(64, activation='relu', dropout=0.1, recurrent_dropout=0.5))

使用双向 RNN

针对这个问题，我一直以为是一个玄学。双向 RNN，顾名思义，就是这个循环网络中包含两个方向相反的普通 RN，一个正向处理数据，一个反向处理数据，由于咱们知道 RNN 是对顺序敏感的前一项处理出的数据值，会做用到下一项数据上，所以数据的不一样不一样方向的处理会获取到数据的不一样特征，或者说反向的 RN 会识别出被正向 RN 忽略的特征，进而补充正向 RN 的不足，如此一来，可能使得整个 RNN 效果更好，略有玄学特征可是也能够理解吧，总之这也是一个有效的办法。用的方法是：优化

model.add(layers.Bidirectional(layers.LSTM(32)))

对于神经网络来讲，具体哪种调优的方法真的有效效果更好，其实根据实际问题实际的数据有比较大的差异，不能一律而论，所以这也是一项须要经验和耐心的工做，也许你还会发出这样的疑问：“我去，为何这样不行？我去，为何这样还不行？我去，为何这样行了？”code

固然，还有一些其余的方法对于更好的训练网络可能有用，好比调节激活函数、调节优化器学习率等，用点耐心会训练出你满意的网络的。get

循环神经网络就暂时先讨论这些吧，还有不少细节可是很重要的问题尚未详细介绍，往后有机会继续讨论。input

愿世界和平！产品

本文首发自公众号：RAIS