李宏毅《机器学习》课程笔记(作业三:反向传播)

深度学习里面的梯度下降中,在计算梯度的时候有两个过程,分别是前向过程和反向过程,很容易理解。 然后在用sigmod作为激活函数的时候,会出现梯度衰减的问题,导致第一层还只做了一点点梯度下降的时候最后一层已经训练好了。为了解决这个问题,2006年最早的文章使用PRM来逐层训练,成功避免了这个问题。但是这样非常复杂。后来hilton提出了一个新的方法,使用ReLU,变成了线性的激活函数。虽然单个神经元
相关文章
相关标签/搜索