梯度下降优化方法总结

随机梯度下降stochastic gradient descent algorithm(SGD): 包括GD(batchsize=all),SGD(batchsize=1),mini-batch SGD(batchsize=mini-batch) 其中GD训练过程中可以不调整学习率,保持学习率不变训练到收敛 SGD,mini-batch SGD训练过程中必须保证不断减少学习率 当训练数据较大,GD
相关文章
相关标签/搜索