LSTM相比一般RNN的优势

LSTM只能避免RNN的梯度消失(gradient vanishing),但是不能对抗梯度爆炸问题(Exploding Gradient)。 梯度膨胀(gradient explosion)不是个严重的问题,一般靠裁剪后的优化算法即可解决,比如gradient clipping(如果梯度的范数大于某个给定值,将梯度同比收缩)。 梯度剪裁的方法一般有两种: 1.一种是当梯度的某个维度绝对值大于某个上
相关文章
相关标签/搜索