梯度消失与梯度爆炸

目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。深度网络有很多非线性层堆叠 反向传播:(链式法则) 梯度消失与梯度爆炸形成的原因: 深度神经网络训练的时候,采用的反向传播方式,该方式背后其实是链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深,那么如果连乘的因子大部分小于1,最后乘积可能趋于0(梯度消失);另一
相关文章
相关标签/搜索