深度学习之如何防止梯度爆炸/梯度消失?

什么是梯度爆炸/梯度消失? 深度神经网络训练的时候,采用的是反向传播方式,该方式使用链式求导,计算每层梯度的时候会涉及一些连乘操作,因此如果网络过深。 那么如果连乘的因子大部分小于1,最后乘积的结果可能趋于0,也就是梯度消失,后面的网络层的参数不发生变化. 那么如果连乘的因子大部分大于1,最后乘积可能趋于无穷,这就是梯度爆炸 如何防止梯度消失? sigmoid容易发生,更换激活函数为 ReLU即可
相关文章
相关标签/搜索