CS224N笔记——深入GRU和LSTM

目录 深入GRU Update Gate Reset Gate tanh-RNN与GRU的对比 GRU与LSTM的对比 深入LSTM 训练一个RNN Ensemble 深入GRU RNN的梯度消失:损失在反向传播中必须经过所有中间节点。 GRU额外添加了一些“捷径”红线,允许梯度直接流过去,而不是连乘的方式递减过去。 Update Gate 用来自适应学习应该把多少注意力放到前一个隐藏层状态上。
相关文章
相关标签/搜索