使用动量(Momentum)的SGD、使用Nesterov动量的SGD

时间 2020-12-22

原文原文链接

使用动量(Momentum)的SGD、使用Nesterov动量的SGD 参考：使用动量(Momentum)的SGD、使用Nesterov动量的SGD 一. 使用动量(Momentum)的随机梯度下降虽然随机梯度下降是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法旨在加速学习（加快梯度下降的速度），特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平

>>阅读原文<<