关于CNN、RNN中的梯度爆炸/梯度弥散

梯度爆炸(gradient explosion) 与 梯度弥散(gradient vanishing) 是神经网络研究中常可能遇到的问题,主要体现在训练不收敛,误差、权重波动大,以及出现NaN值,本文以CNN与RNN为例,说明梯度爆炸/弥散的产生原因 CNN CNN神经网络的简易图如下: 用 f f f表示卷积函数,忽略pooling层,则每一层的运算可以表示为 x n = f ( W n x n
相关文章
相关标签/搜索