优化算法--momentum

momentum ​ 梯度下降或随机梯度下降都是目标函数在自变量当前位置下降最快的方向,然而,每次迭代都沿着最陡方向并且只考虑当前位置,会使得目标函数很容易陷入局部最小值和鞍点。 ​ 可以看到,同一位置上,目标函数在竖直方向( x 2 x_2 x2​轴方向)比在水平方向( x 1 x_1 x1​轴方向)的斜率的绝对值更大。因此,给定学习率,梯度下降迭代自变量时会使自变量在竖直方向比在水平方向移动幅
相关文章
相关标签/搜索