梯度下降优化方法总结

时间 2021-01-02

原文原文链接

随机梯度下降stochastic gradient descent algorithm（SGD）：包括GD(batchsize=all)，SGD(batchsize=1)，mini-batch SGD(batchsize=mini-batch) 其中GD训练过程中可以不调整学习率，保持学习率不变训练到收敛 SGD，mini-batch SGD训练过程中必须保证不断减少学习率当训练数据较大，GD