深度学习——不同梯度下降法的特点比较

1、标准梯度下降法(GD) (1)每个样本都计算一次 (2)训练速度慢 (3)容易陷入局部最优解     2、批量梯度下降法(BGD]-每批样本计算一次 (1)训练速度较快 (2)选择平均梯度最小的方向 3、随机梯度下降法(SGD)-每批样本计算一次 (1)训练速度快(不需要计算每个样本的梯度或平均梯度) (2)从批样本随机选择一个方向下降(某次有可能不正确,最终会正确) (3)注意: 随机下降的
相关文章
相关标签/搜索