手推 梯度消失和梯度爆炸问题

采用 s i g m o i d sigmoid sigmoid 为激活函数,当反向传播使用 链式法则 的时候会有连乘,就会出现梯度消失。 由于梯度消失现象,会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时,只等价于后面几层的浅层网络的学习。(因为推反向传播的时候才会用到 链式法则,详细见后面推导) 解决办法 梯度消失和梯度爆炸本质上是一样的,都是因为网络层数太深而引发的梯度反向
相关文章
相关标签/搜索