【转载】简述动量Momentum梯度下降

梯度下降是机器学习中用来使模型逼近真实分布的最小偏差的优化方法。 在普通的随机梯度下降和批梯度下降当中,参数的更新是按照如下公式进行的: W = W - αdW b = b - αdb 其中α是学习率,dW、db是cost function对w和b的偏导数。 随机梯度下降和批梯度下降的区别只是输入的数据分别是mini-batch和all。 然而,在曾经我发表的博客中提到了下图的问题。 可以看出在c
相关文章
相关标签/搜索