4种梯度下降的变种优化算法的拙见:Adagrad、RMSprop、Momentum、Adam(原创)

一、算法简述 Momentum(动量法):模拟物理动量的概念,积累之前的动量来替代真正的梯度 Adagrad(Adaptive Gradient):每个参数反比于历史梯度平方总和的平方根 RMSprop(Root Mean Squared propagation):AdaGrad的升级(将梯度积累替换为Running Average) Adam(Adaptive Moment Estimation
相关文章
相关标签/搜索