Deep Learning 最优化方法之Momentum(动量)

先上结论: 1.动量方法主要是为了解决Hessian矩阵病态条件问题(直观上讲就是梯度高度敏感于参数空间的某些方向)的。 2.加速学习 3.一般将参数设为0.5,0.9,或者0.99,分别表示最大速度2倍,10倍,100倍于SGD的算法。 4.通过速度v,来积累了之间梯度指数级衰减的平均,并且继续延该方向移动: 再看看算法: 动量算法直观效果解释: 如图所示,红色为SGD+Momentum。黑色为
相关文章
相关标签/搜索