sigmoid不是以0为中心造成的后果及原因

后果 有可能导致网络收敛慢(我认为在某一层反向传播中,如果参数们本来就是都要增,都要减,那么在这一层收敛不受影响)如果参数们有的需要增有的需要减,这种情况下,收敛就像第二张图,明明可以走绿线进行收敛,但不得不走了红线,这是因为参数们只能同增或同减,那么为什么会这样呢,下面解释,(注意我们的论证都是在反向传播某一层中) 原因 权重更新的公式(它也有变形,但意思一样): 对于神经元A来说,wi更新的方
相关文章
相关标签/搜索