【深度学习】关于Adam

时间 2021-01-15

原文原文链接

从SGD（SGD指mini-batch gradient descent）和Adam两个方面说起。更详细的可以看：深度学习最全优化方法总结比较（SGD，Adagrad，Adadelta，Adam，Adamax，Nadam）（醍醐灌顶！） SGD SGD就是每一次迭代计算mini-batch的梯度，然后对参数进行更新，是最常见的优化方法了。即：其中，是学习率，是梯度 SGD完全依赖于当前batc