【转+整理】SDG,动量,Adam优化算法

参考博客:深度学习最常用的算法,一文看懂各种神经网络优化算法:从梯度下降到Adam方法   SDG 1、定义:         随机梯度下降(Stochastic gradient descent,SGD)对每个训练样本进行参数更新,每次执行都进行一次更新,且执行速度更快。 2、公式:         θ=θ−η⋅∇(θ) × J(θ;x(i);y(i)),其中 η 是学习率,x(i) 和 y(i
相关文章
相关标签/搜索