《动手学深度学习》第三十三天---AdaGrad算法,RMSProp算法,AdaDelta算法,Adam算法

回顾一下以前的优化算法: 在动量法中,咱们用到指数加权移动平均来使得自变量的更新方向更加一致,从而下降发散的问题。 web (一)AdaGrad算法 AdaGrad算法会使用一个小批量随机梯度gt按元素平方的累加变量st。在时间步0,AdaGrad将s0中每一个元素初始化为0。在时间步t,首先将小批量随机梯度gt按元素平方后累加到变量st: 其中⊙是按元素相乘 若是目标函数有关自变量中某个元素的偏
相关文章
相关标签/搜索