Deep learning II - II Optimization algorithms - Gradient descent with momentum 动量梯度下降算法

Gradient descent with momentum 动量梯度下降算法 运用指数加权平均算法,计算梯度的指数加权平均,然后用这个梯度来更新权重。 当使用梯度下降时,下降路径可能会和上图蓝色路径相似,不断震荡;所以我们不能用比较大的learning_rate,以防出现如紫色路径一样的diverging。 通过使用指数加权平均,在纵坐标(以上图阐述)方向的来回震荡通过加权之后,会相互抵消而减小
相关文章
相关标签/搜索