【深度学习】关于Adam

从SGD(SGD指mini-batch gradient descent)和Adam两个方面说起。 更详细的可以看:深度学习最全优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)(醍醐灌顶!) SGD SGD就是每一次迭代计算mini-batch的梯度,然后对参数进行更新,是最常见的优化方法了。即: 其中,是学习率,是梯度 SGD完全依赖于当前batc
相关文章
相关标签/搜索