深度学习(十六) ReLU为什么比Sigmoid效果好

sigmoid: Relu:   为什么通常Relu比sigmoid和tanh强,有什么不同? 主要是因为它们gradient特性不同。 1.sigmoid和tanh的gradient在饱和区域非常平缓,接近于0,很容易造成vanishing gradient的问题,减缓收敛速度。vanishing gradient在网络层数多的时候尤其明显,是加深网络结构的主要障碍之一。相反,Relu的grad
相关文章
相关标签/搜索