深度学习优化器的对比

转载:https://blog.csdn.net/winycg/article/details/79363169 梯度下降框架 给定优化的模型参数θ∈Rdθ∈Rd和目标函数J(θ)J(θ)后,算法沿着梯度∇θJ(θ)∇θJ(θ)的相反方向更新θθ最小化J(θ)J(θ)。学习率ηη决定了每一时刻的更新步长。对某一步,可以用下述步骤描述梯度下降流程:  1.计算目标函数的梯度  gt=∇θJ(θ)gt
相关文章
相关标签/搜索