参数更新的方式(优化方式)

SGD是实际方法中收敛最慢的。(直接根据梯度矫正W,因为水平方向梯度很小,垂直方向梯度很大,所以会出现如下图的波动方式)   补救上面的一种方式是动量更新(momentum)。(可以理解为在浅的方向上加快收敛,在深得方向上来回摆动) 在上面的基础上,另外一种更新方式  Nesterov Momentum  然后就是AdaGrad updata,这种方法可以理解为,垂直方向梯度大的时候,cache就
相关文章
相关标签/搜索