如何解决梯度消失和梯度爆炸?

何为梯度消失,梯度爆炸? 目前优化神经网络的方法都是基于反向传播的思想,即根据损失函数计算的误差通过梯度反向传播的方式,指导深度网络权值的更新优化。这样做是有一定原因的,首先,深层网络由许多非线性层堆叠而来,每一层非线性层都可以视为是一个非线性函数 f(x) f ( x ) (非线性来自于非线性激活函数),因此整个深度网络可以视为是一个复合的非线性多元函数 : F(x)=fn(...f3(f2(f
相关文章
相关标签/搜索