【深度学习】极值优化方法总结比较(SGD,Adagrad,Adadelta,Adam,Adamax,Nadam)

SGD 此处的SGD指mini-batch gradient descent,关于batch gradient descent, stochastic gradient descent, 以及 mini-batch gradient descent的具体区别就不细说了。现在的SGD一般都指mini-batch gradient descent。 SGD就是每一次迭代计算mini-batch的梯度,
相关文章
相关标签/搜索