梯度消失与梯度爆炸

梯度消失与梯度爆炸 网络层数太多是导致梯度消失或者梯度爆炸的直接原因, 使用S型激活函数(如:sigmoid函数,tanh函数)会导致梯度消失问题,初始权重设置太大会导致梯度爆炸。 梯度消失指的是权重不再更新,直观上看是从最后一层到第一层权重的更新越来越慢,直至不更新。本质原因是反向传播的连乘效应,导致最后对权重的偏导接近于零。 主要是因为以前用sigmoid的时候,sigmoid中心部位和两侧的
相关文章
相关标签/搜索