为什么sigmoid会造成梯度消失?

这里仅仅做一些数学上的简单分析,首先看sigmoid的公式: 它的导数: 的图像如下: 也就是说任何输入都会被缩放到0到1,如果隐层的所有layer都使用sigmoid,除了第一层的输入,最后一层的输出,其他层的输入输出都是0到1,看看的完整图像: z大概在-5到5之间,才有值,而除第一层隐层的输入都在0到1之间,所以的图像如下: 最终取值大概0.2到0.25之间,下面以一个简单的神经原结构举例:
相关文章
相关标签/搜索