产生消失的梯度问题的原因

产生消失的梯度问题的原因 先看一个极简单的深度神经网络:每一层都只有一个单一的神经元。如下图: 代价函数C对偏置b1的偏导数的结果计算如下: 先看一下sigmoid 函数导数的图像: 该导数在σ′(0) = 1/4时达到最高。现在,如果我们使用标准方法来初始化网络中的权重,那么会使用一个均值为0 标准差为1 的高斯分布。因此所有的权重通常会满足|wj|<1。从而有wjσ′(zj) < 1/4。 这
相关文章
相关标签/搜索