神经网络学习技巧之梯度下降训练策略

时间 2021-01-02

原文原文链接

梯度算法随机梯度下降SGD（Stochastic Gradient Descent）小批次梯度下降（Mini-batch Gradient Descent）批次梯度下降利用全部训练数据集计算损失函数的梯度来执行一次参数更新 • 更新较慢 • 不能在线更新模型 • 对凸的损失函数可保证收敛到全局最小值；对非凸的损失函数可收敛到局部最小值随机梯度下降对每一个训练样本点和标签执行参数更新 •

>>阅读原文<<