梯度消失与梯度爆炸

1. 梯度分析 观察不同隐藏层数在不同层bias的梯度对比: 可以看出,第一个隐藏层梯度比第四个几乎慢1000倍. 这种现象普遍存在于神经网络中,称为:vanishing gradient problem 另一种情况与之相反,称为:exploding gradient problem 2. 梯度消失 此处就是简单的反向传播算法! 标准正态分布图 3. 梯度爆炸 4. 不稳定梯度问题 5. 解决办法
相关文章
相关标签/搜索