反向传播+梯度消失梯度爆炸

为什么写这个呢,本来是想调研一下激活函数,就在想什么样的激活函数才是好的,Sigmoid在x过大过小的时候梯度消失造成问题,于是发现对梯度消失和梯度爆炸的理解还是不深,既然涉及到梯度了,那就需要重新掌握反向传播了,所以写下了这篇笔记 为什么需要反向传播 反向传播是优化神经网络参数的方法,深层网络由许多线性层和非线性层堆叠而来,因此整个深度网络可以视为是一个复合的非线性多元函数。 我们最终的目的是希
相关文章
相关标签/搜索