momentum、Adagrad、RMSProp、Adam梯度下降总结

Momentum SGD方法中的高方差振荡使得网络很难稳定收敛,所以有研究者提出了一种称为动量(Momentum)的技术,通过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。换句话说,这种新方法将上个步骤中更新向量的分量’γ’添加到当前更新向量。 V(t)=γV(t−1)+η∇(θ).J(θ) 通过θ=θ−V(t)来更新参数。 动量项γ通常设定为0.9,或相近的某个值。 这里的动量与经典
相关文章
相关标签/搜索