On the difficulty of training Recurrent Neural Networks

1 摘要 关于正确训练循环神经网络有两个常见的问题,梯度消失和梯度爆炸。 在本文中,我们试图通过从分析,几何和动态系统的角度探索这些问题来提高对潜在问题的理解。 我们的分析被用来证明一个简单而有效的解决方案。 我们提出梯度范数裁剪策略来处理爆炸梯度和消失梯度问题的软约束。 我们验证了我们的假设,并在实验部分提出了解决方案。 2.前言 RNN网络的结构与标准多层感知器的结构类似,区别在于我们允许隐藏
相关文章
相关标签/搜索