神经网络学习技巧之梯度下降训练策略

梯度算法 随机梯度下降SGD(Stochastic Gradient Descent) 小批次梯度下降(Mini-batch Gradient Descent) 批次梯度下降 利用全部训练数据集计算损失函数的梯度来执行一次参数更新 • 更新较慢 • 不能在线更新模型 • 对凸的损失函数可保证收敛到全局最小值;对非凸的损失函数可收敛到局部最小值 随机梯度下降 对每一个训练样本点和标签执行参数更新 •
相关文章
相关标签/搜索