RELU激活函数作用

梯度消失现象:在某些神经网络中,从后向前看,前面层梯度越来越小,后面的层比前面的层学习速率高。 梯度消失原因: sigmoid函数导数图像 导数最大为0.25<1 权重初始值通常使用一个高斯分布所以|w|<1,所以 wjσ′(zj)<0.25 ,根据链式法则计算梯度越来越小。由于层数的增加,多个项相乘,势必就会导致不稳定的情况。 sigmoid激活函数的缺点: 1.计算量大,反向传播求梯度误差时,
相关文章
相关标签/搜索