深度学习之 梯度消失与爆炸原因公式推导

如果要求w1的梯度的话,那么就是 假如激活函数用的sigmod话,那么如下: 所以 所以导致梯度消失问题 那么为什么换了relu激活函数也会有梯度消失问题呢?因为乘积中还有另外一部分 这个wj如果有很多w是0到1之间的数,那么最终还是会导致梯度消失,如果有很多都是大于1的数,那么就会导致梯度爆炸
相关文章
相关标签/搜索