CS22N 学习笔记(七)Vanishing Gradients and Fancy RNNs

Vanishing Gradients 在一个普通的RNN网络中,求下列梯度: 根据链式法则,可以得到: 如果这些 ∂ h ( i + 1 ) ∂ h ( i ) \frac{\partial h^{(i+1)}}{\partial h^{(i)}} ∂h(i)∂h(i+1)​导数太小就会发生梯度消失问题。 可以经过计算得到: 将其带入链式法则的公式,会得到 W h i − j {W_h^{i-j
相关文章
相关标签/搜索