梯度优化算法Adam(续)

进一步优化梯度下降 现在我们要讨论用于进一步优化梯度下降的各种算法。 1. 动量梯度下降法(Momentum) SGD方法中的高方差振荡使得网络很难稳定收敛,所以有研究者提出了一种称为动量(Momentum)的技术,通过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。换句话说,这种新方法将上个步骤中更新向量的分量’γ’添加到当前更新向量。 V(t)=γV(t−1)+η∇(θ).J(θ)
相关文章
相关标签/搜索