An overview of gradient descent optimization algorithms

转载自:http://sebastianruder.com/optimizing-gradient-descent/html 梯度降低优化及其各类变体。1.随机梯度降低(SGD) 2.小批量梯度降低(mini-batch)3.最优势附近加速且稳定的动量法(Momentum)4.在谷歌毛脸中也使用的自适应学习率AdaGrad 5.克服AdaGrad梯度消失的RMSprop和AdaDelta。S.Ru
相关文章
相关标签/搜索