《动手学深度学习》第三十三天---AdaGrad算法，RMSProp算法，AdaDelta算法，Adam算法

时间 2020-06-08

标签动手学深度学习第三十三天 3天 adagrad 算法 rmsprop adadelta adam 繁體版

原文原文链接

回顾一下以前的优化算法：在动量法中，咱们用到指数加权移动平均来使得自变量的更新方向更加一致，从而下降发散的问题。 web （一）AdaGrad算法 AdaGrad算法会使用一个小批量随机梯度gt按元素平方的累加变量st。在时间步0，AdaGrad将s0中每一个元素初始化为0。在时间步t，首先将小批量随机梯度gt按元素平方后累加到变量st：其中⊙是按元素相乘若是目标函数有关自变量中某个元素的偏

>>阅读原文<<