【零基础】神经网络优化之动量梯度下降

时间 2021-01-08

原文原文链接

一、序言　　动量梯度下降也是一种神经网络的优化方法，我们知道在梯度下降的过程中，虽然损失的整体趋势是越来越接近0，但过程往往是非常曲折的，如下图所示：　　特别是在使用mini-batch后，由于单次参与训练的图片少了，这种“曲折”被放大了好几倍。前面我们介绍过L2和dropout，它们要解决的也是“曲折”的问题，不过这种曲折指的是求得的W和b过于拟合训练数据，导致求解曲线很曲折。动量梯度

>>阅读原文<<