深度网络梯度爆炸的原因、产生的影响和解决方法

1.概念 深度模型有关数值稳定性的典型问题是:衰减(vanishing)和爆炸(explosion)。 当神经网络的层数较多时,模型的数值稳定性容易变差。举个简单的例子: 为了便于讨论,不考虑偏差参数, 且设所有隐藏层的激活函数为恒等映射(identity mapping)φ(x) = x。给定输入X,多层感知 机的第l层的输出H(l) = XW(1)W(2) ...W(l)。此时,如果层数l较大
相关文章
相关标签/搜索