【DL学习笔记】4:长短期记忆网络(Long Short-Term Memory)

在前面学习的循环网路中,因为梯度中有参数weight_hh的k次幂的存在,所以会导致梯度弥散和梯度爆炸的问题。对于梯度爆炸问题,可以用PyTorch笔记22最后面给出的梯度裁剪的方式解决。但是梯度弥散的问题没法这样直接解决,LSTM一定程度上解决了这样的问题,从而为长序列记忆提供了较好的解决方案。 长序列难题 在原始的循环网络中,实际上能处理的记忆信息比较短。如对自然语言的处理中,只能记住之前较少
相关文章
相关标签/搜索