批量梯度降低(BGD)、随机梯度降低(SGD)以及小批量梯度降低(MBGD)的理解

https://www.cnblogs.com/lliuye/p/9451903.htmlhtml

 

梯度降低法做为机器学习中较常使用的优化算法,其有着三种不一样的形式:批量梯度降低(Batch Gradient Descent)、随机梯度降低(Stochastic Gradient Descent)以及小批量梯度降低(Mini-Batch Gradient Descent)。其中小批量梯度降低法也经常使用在深度学习中进行模型的训练。接下来,咱们将对这三种不一样的梯度降低法进行理解。
  为了便于理解,这里咱们将使用只含有一个特征的线性回归来展开。此时线性回归的假设函数为:算法

hθ(x(i))=θ1x(i)+θ0hθ(x(i))=θ1x(i)+θ0


  其中 i=1,2,...,mi=1,2,...,m 表示样本数。
  对应的目标函数(代价函数)即为:
网络

J(θ0,θ1)=12mi=1m(hθ(x(i))y(i))2J(θ0,θ1)=12m∑i=1m(hθ(x(i))−y(i))2


  下图为 J(θ0,θ1)J(θ0,θ1) 与参数 θ0,θ1θ0,θ1 的关系的图:
机器学习

 


 


一、批量梯度降低(Batch Gradient Descent,BGD)

  批量梯度降低法是最原始的形式,它是指在每一次迭代时使用全部样本来进行梯度的更新。从数学上理解以下:
  (1)对目标函数求偏导:函数

ΔJ(θ0,θ1)Δθj=1mi=1m(hθ(x(i))y(i))x(i)jΔJ(θ0,θ1)Δθj=1m∑i=1m(hθ(x(i))−y(i))xj(i)


  其中 i=1,2,...,mi=1,2,...,m 表示样本数, j=0,1j=0,1 表示特征数,这里咱们使用了偏置项 x(i)0=1x0(i)=1 。
  (2)每次迭代对参数进行更新:
学习

θj:=θjα1mi=1m(hθ(x(i))y(i))x(i)jθj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)


  注意这里更新时存在一个求和函数,即为对全部样本进行计算处理,可与下文SGD法进行比较。
  伪代码形式为:
  repeat{
       θj:=θjα1mmi=1(hθ(x(i))y(i))x(i)jθj:=θj−α1m∑i=1m(hθ(x(i))−y(i))xj(i)
      (for j =0,1)
  }


  优势:
  (1)一次迭代是对全部样本进行计算,此时利用矩阵进行操做,实现了并行。
  (2)由全数据集肯定的方向可以更好地表明样本整体,从而更准确地朝向极值所在的方向。当目标函数为凸函数时,BGD必定可以获得全局最优。
  缺点:
  (1)当样本数目 mm 很大时,每迭代一步都须要对全部样本计算,训练过程会很慢。
  从迭代的次数上来看,BGD迭代的次数相对较少。其迭代的收敛曲线示意图能够表示以下:
优化

 


 


二、随机梯度降低(Stochastic Gradient Descent,SGD)

  随机梯度降低法不一样于批量梯度降低,随机梯度降低是每次迭代使用一个样本来对参数进行更新。使得训练速度加快。
  对于一个样本的目标函数为:atom

J(i)(θ0,θ1)=12(hθ(x(i))y(i))2J(i)(θ0,θ1)=12(hθ(x(i))−y(i))2


  (1)对目标函数求偏导:
spa

ΔJ(i)(θ0,θ1)θj=(hθ(x(i))y(i))x(i)jΔJ(i)(θ0,θ1)θj=(hθ(x(i))−y(i))xj(i)


  (2)参数更新:
orm

θj:=θjα(hθ(x(i))y(i))x(i)jθj:=θj−α(hθ(x(i))−y(i))xj(i)


  注意,这里再也不有求和符号
  伪代码形式为:
  repeat{
    for i=1,...,m{
       θj:=θjα(hθ(x(i))y(i))x(i)jθj:=θj−α(hθ(x(i))−y(i))xj(i)
      (for j =0,1)
    }
  }


  优势:
  (1)因为不是在所有训练数据上的损失函数,而是在每轮迭代中,随机优化某一条训练数据上的损失函数,这样每一轮参数的更新速度大大加快。
  缺点:
  (1)准确度降低。因为即便在目标函数为强凸函数的状况下,SGD仍旧没法作到线性收敛。
  (2)可能会收敛到局部最优,因为单个样本并不能表明全体样本的趋势。
  (3)不易于并行实现。


  解释一下为何SGD收敛速度比BGD要快:
  答:这里咱们假设有30W个样本,对于BGD而言,每次迭代须要计算30W个样本才能对参数进行一次更新,须要求得最小值可能须要屡次迭代(假设这里是10);而对于SGD,每次更新参数只须要一个样本,所以若使用这30W个样本进行参数更新,则参数会被更新(迭代)30W次,而这期间,SGD就能保证可以收敛到一个合适的最小值上了。也就是说,在收敛时,BGD计算了 10×30W10×30W 次,而SGD只计算了 1×30W1×30W 次。


  从迭代的次数上来看,SGD迭代的次数较多,在解空间的搜索过程看起来很盲目。其迭代的收敛曲线示意图能够表示以下:

 


 


三、小批量梯度降低(Mini-Batch Gradient Descent, MBGD)

  小批量梯度降低,是对批量梯度降低以及随机梯度降低的一个折中办法。其思想是:每次迭代 使用 ** batch_size** 个样原本对参数进行更新。
  这里咱们假设 batchsize=10batchsize=10 ,样本数 m=1000m=1000 。
  伪代码形式为:
  repeat{
    for i=1,11,21,31,...,991{
       θj:=θjα110(i+9)k=i(hθ(x(k))y(k))x(k)jθj:=θj−α110∑k=i(i+9)(hθ(x(k))−y(k))xj(k)
      (for j =0,1)
    }
  }


  优势:
  (1)经过矩阵运算,每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
  (2)每次使用一个batch能够大大减少收敛所须要的迭代次数,同时可使收敛到的结果更加接近梯度降低的效果。(好比上例中的30W,设置batch_size=100时,须要迭代3000次,远小于SGD的30W次)
  (3)可实现并行化。
  缺点:
  (1)batch_size的不当选择可能会带来一些问题。


  batcha_size的选择带来的影响:
  (1)在合理地范围内,增大batch_size的好处:
    a. 内存利用率提升了,大矩阵乘法的并行化效率提升。
    b. 跑完一次 epoch(全数据集)所需的迭代次数减小,对于相同数据量的处理速度进一步加快。
    c. 在必定范围内,通常来讲 Batch_Size 越大,其肯定的降低方向越准,引发训练震荡越小。
  (2)盲目增大batch_size的坏处:
    a. 内存利用率提升了,可是内存容量可能撑不住了。
    b. 跑完一次 epoch(全数据集)所需的迭代次数减小,要想达到相同的精度,其所花费的时间大大增长了,从而对参数的修正也就显得更加缓慢。
    c. Batch_Size 增大到必定程度,其肯定的降低方向已经基本再也不变化。


  下图显示了三种梯度降低算法的收敛过程:


 


引用及参考:
[1] http://www.javashuo.com/article/p-yixtiunk-gt.html
[2] https://zhuanlan.zhihu.com/p/37714263
[3] https://zhuanlan.zhihu.com/p/30891055
[4] https://www.zhihu.com/question/40892922/answer/231600231

写在最后:本文参考以上资料进行整合与总结,文章中可能出现理解不当的地方,如有所看法或异议可在下方评论,谢谢!

相关文章
相关标签/搜索