机器学习算法岗面经 | 优化方法总结对比：SGD、Momentum、AdaGrad、RMSProp、Adam

时间 2020-12-23

原文原文链接

A. Stochastic Gradient Descent 随机梯度下降随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行跟新。 θ = θ − α ▽ θ J ( θ ) \theta = \theta - \alpha\bigtriangledown_{\theta}J(\theta) θ=θ−α▽θJ(θ) Batchsize是算法设计中需要调节的参数，较小