优化算法note

发展: 优化算法的主要步骤: SGD: 下降梯度就是最简单的 最大的缺点是下降速度慢,而且可能会在沟壑的两边持续震荡,停留在一个局部最优点。 SGD with Momentum 下坡的时候,如果发现是陡坡,那就利用惯性跑的快一些 引入了一阶动:一阶动量是各个时刻梯度方向的指数移动平均值,约等于最近 1/(1 - β) 个时刻的梯度向量和的平均值。 也就是说,t时刻的下降方向,不仅由当前点的梯度方向
相关文章
相关标签/搜索