RNN系列教程之三 | 基于时间的反向传播算法和梯度消失问题

前一部分中,我们介绍了如何在Python和Theano框架下实现RNN,但还未深入了解时序反向传播算法(BPTT)是如何计算梯度的。 这周,我们将简单介绍BPTT,并解释其与传统反向传播的区别。我们还将了解梯度消失问题,这也是推动LSTM(长短时记忆)和GRU(门控循环单元)(目前在NLP和其他领域最流行且有效模型)发展的原因。 1991年,梯度消失问题最早由Sepp Hochreiter发现,又
相关文章
相关标签/搜索