深度学习:循环神经网络(RNN)的变体LSTM、GRU

假设我们试着去预测“I grew up in France… I speak fluent French”最后的词French。当前的信息建议下一个词可能是一种语言的名字,但是如果我们需要弄清楚是什么语言,我们是需要先前提到的离当前位置很远的 France 的上下文的。这说明相关信息和当前预测位置之间的间隔就肯定变得相当的大。 不幸的是,在这个间隔不断增大时,RNN 会丧失学习到连接如此远的信息的
相关文章
相关标签/搜索