深度学习笔记(二):2优化算法(二)(Momentum, RMSProp, Adam)

1.动量梯度下降法(Gradient descent with Momentum) 基本的想法:运行速度几乎总是快于标准的梯度下降算法,简而言之,就是计算梯度的指数加权平均数,并利用该梯度更新你的权重 例如,在上几个导数中,你会发现这些纵轴上的摆动平均值接近于零,所以在纵轴方向,你希望放慢一点,平均过程中,正负数相互抵消,所以平均值接近于零。但在横轴方向,所有的微分都指向横轴方向,因此横轴方向的平
相关文章
相关标签/搜索