激活函数选取不当为什会形成梯度消失

下图为四层神经网络,它包括输入层,输出层,两个隐层

假设输入层到第一个隐层的权值为,偏置值为。两个隐层之间的权值为,偏置值为。第二个隐层到输出层的权值为,偏置值为。如今假设输入的值为,输出为,标签值为。前一层的输出为后一层的输入则输出层输出为:网络

(f为激活函数)
函数

代价函数咱们使用经常使用的方差函数:blog

咱们知道利用梯度降低法更新权值的公式为:神经网络

如今咱们想更新的权值,根据权值更新公式则和链式法则有:
im


假设咱们的激活函数为sigmoid函数,他的表达式和导函数为:img

   , 
di

函数图像,和导函数图像为:标签



可知他的导函数最大值为0.25<1,咱们的例子是四层神经网络,若是是不少层呢,那么多小于1的数连乘,极可能致使梯度消失。co