深度学习中的优化(动量,RMSProp等算法)

1. 动量 1.      动量 使用了动量以后。假如梯度一直都是g,那么会一直在-g上不停加速,直到达到最终速度,其中步长变为,如当a=0.9时对应最大速度十倍于梯度下降算法。实际中,一开始是一个较小的值。            同时,使用动量以后,会累积之前的梯度,假如梯度发生震荡,v受到的影响可以减小。可参考吴恩达视频中关于动量的解释。 2.      Nesterov动量 与1中的动量相比
相关文章
相关标签/搜索