机器学习算法岗面经 | 优化方法总结对比:SGD、Momentum、AdaGrad、RMSProp、Adam

A. Stochastic Gradient Descent 随机梯度下降 随机梯度下降,每一次迭代计算数据集的mini-batch的梯度,然后对参数进行跟新。 θ = θ − α ▽ θ J ( θ ) \theta = \theta - \alpha\bigtriangledown_{\theta}J(\theta) θ=θ−α▽θ​J(θ) Batchsize是算法设计中需要调节的参数,较小
相关文章
相关标签/搜索