批量梯度降低(BGD)、随机梯度降低(SGD)以及小批量梯度降低(MBGD)的理解

时间 2019-11-06

标签批量梯度降低 bgd 随机 sgd 以及 mbgd 理解繁體版

原文原文链接

https://www.cnblogs.com/lliuye/p/9451903.htmlhtml

梯度降低法做为机器学习中较常使用的优化算法，其有着三种不一样的形式：批量梯度降低（Batch Gradient Descent）、随机梯度降低（Stochastic Gradient Descent）以及小批量梯度降低（Mini-Batch Gradient Descent）。其中小批量梯度降低法也经常使用在深度学习中进行模型的训练。接下来，咱们将对这三种不一样的梯度降低法进行理解。
为了便于理解，这里咱们将使用只含有一个特征的线性回归来展开。此时线性回归的假设函数为：算法

h θ (x (i)) = θ 1 x (i) + θ 0

其中 $i = 1, 2, . . ., m$ 网络

J (θ 0, θ 1) = 1 2 m \sum i = 1 m ( h θ ( x ( i ) ) - y

$i = 1, 2, . . ., m$ 机器学习

一、批量梯度降低（Batch Gradient Descent，BGD）

批量梯度降低法是最原始的形式，它是指在每一次迭代时使用全部样本来进行梯度的更新。从数学上理解以下：
（1）对目标函数求偏导：函数

Δ J ( θ 0 , θ 1 ) Δ θ j = 1 m \sum i = 1 m ( h θ ( x ( i

$i = 1, 2, . . ., m$ 学习

θ j := θ j - α 1 m \sum i = 1 m ( h θ ( x ( i ) ) - y ( i ) )

$i = 1, 2, . . ., m$ 优化

二、随机梯度降低（Stochastic Gradient Descent，SGD）

随机梯度降低法不一样于批量梯度降低，随机梯度降低是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。
对于一个样本的目标函数为：atom

J (i) (θ 0, θ 1) = 1 2 ( h θ ( x ( i ) ) - y ( i ) ) 2

$i = 1, 2, . . ., m$ spa

Δ J ( i ) ( θ 0 , θ 1 ) θ j = ( h θ ( x ( i ) ) - y ( i )

$i = 1, 2, . . ., m$ orm

θ j := θ j - α (h θ (x (i)) - y (i)) x (i) j

$i = 1, 2, . . ., m$

三、小批量梯度降低（Mini-Batch Gradient Descent, MBGD）

小批量梯度降低，是对批量梯度降低以及随机梯度降低的一个折中办法。其思想是：每次迭代 使用 ** batch_size** 个样原本对参数进行更新。
这里咱们假设 $b a t c h_{s} i z e = 10$

引用及参考：
[1] http://www.javashuo.com/article/p-yixtiunk-gt.html
[2] https://zhuanlan.zhihu.com/p/37714263
[3] https://zhuanlan.zhihu.com/p/30891055
[4] https://www.zhihu.com/question/40892922/answer/231600231

写在最后：本文参考以上资料进行整合与总结，文章中可能出现理解不当的地方，如有所看法或异议可在下方评论，谢谢！