深度学习优化方法总结

SGD SGD一般指小批量梯度下降,每一次迭代计算小批量的梯度,然后对参数进行更新,是最常见的优化方法了即: g t = ∇ θ t − 1 f ( θ t − 1 ) g_t = \nabla_{\theta_{t-1}}f(\theta_{t-1}) gt​=∇θt−1​​f(θt−1​) Δ θ t = − η ∗ g t \Delta\theta_t = -\eta*g_t Δθt​=−η
相关文章
相关标签/搜索