Tensorflow-各类优化器总结与比较

优化器总结

机器学习中,有不少优化方法来试图寻找模型的最优解。好比神经网络中能够采起最基本的梯度降低法。算法

梯度降低法(Gradient Descent)

梯度降低法是最基本的一类优化器,目前主要分为三种梯度降低法:标准梯度降低法(GD, Gradient Descent),随机梯度降低法(SGD, Stochastic Gradient Descent)及批量梯度降低法(BGD, Batch Gradient Descent)。网络

标准梯度降低法(GD)

  • 假设要学习训练的模型参数为WW,代价函数为J(W)J(W),则代价函数关于模型参数的偏导数即相关梯度为ΔJ(W)ΔJ(W),学习率为ηtηt,则使用梯度降低法更新参数为:
     

    其中,WtWt表示tt时刻的模型参数。
  • 从表达式来看,模型参数的更新调整,与代价函数关于模型参数的梯度有关,即沿着梯度的方向不断减少模型参数,从而最小化代价函数。
  • 基本策略能够理解为”在有限视距内寻找最快路径下山“,所以每走一步,参考当前位置最陡的方向(即梯度)进而迈出下一步。能够形象的表示为:

 

二维参数的梯度降低描述

 

评价:标准梯度降低法主要有两个缺点:app

  • 训练速度慢:每走一步都要要计算调整下一步的方向,下山的速度变慢。在应用于大型数据集中,每输入一个样本都要更新一次参数,且每次迭代都要遍历全部的样本。会使得训练过程及其缓慢,须要花费很长时间才能获得收敛解。
  • 容易陷入局部最优解:因为是在有限视距内寻找下山的反向。当陷入平坦的洼地,会误觉得到达了山地的最低点,从而不会继续往下走。所谓的局部最优解就是鞍点。落入鞍点,梯度为0,使得模型参数不在继续更新。

批量梯度降低法(BGD)

  • 假设批量训练样本总数为nn,每次输入和输出的样本分别为X(i),Y(i)X(i),Y(i),模型参数为WW,代价函数为J(W)J(W),每输入一个样本ii代价函数关于WW的梯度为ΔJi(Wt,X(i),Y(i))ΔJi(Wt,X(i),Y(i)),学习率为ηtηt,则使用批量梯度降低法更新参数表达式为:
     


    其中,WtWt表示tt时刻的模型参数。
  • 从表达式来看,模型参数的调整更新与所有输入样本的代价函数的和(即批量/全局偏差)有关。即每次权值调整发生在批量样本输入以后,而不是每输入一个样本就更新一次模型参数。这样就会大大加快训练速度。
  • 基本策略能够理解为,在下山以前掌握了附近的地势状况,选择整体平均梯度最小的方向下山。

评价:机器学习

  • 批量梯度降低法比标准梯度降低法训练时间短,且每次降低的方向都很正确。

随机梯度降低法(SGD)

  • 对比批量梯度降低法,假设从一批训练样本nn中随机选取一个样本isis。模型参数为WW,代价函数为J(W)J(W),梯度为ΔJ(W)ΔJ(W),学习率为ηtηt,则使用随机梯度降低法更新参数表达式为:
     

  • E(gt)=ΔJ(Wt)E(gt)=ΔJ(Wt),这里虽然引入了随机性和噪声,但指望仍然等于正确的梯度降低。
  • 基本策略能够理解为随机梯度降低像是一个盲人下山,不用每走一步计算一次梯度,可是他总能下到山底,只不过过程会显得扭扭曲曲。

  • 这里写图片描述

评价:函数

  • 优势:
  • 虽然SGD须要走不少步的样子,可是对梯度的要求很低(计算梯度快)。而对于引入噪声,大量的理论和实践工做证实,只要噪声不是特别大,SGD都能很好地收敛。
  • 应用大型数据集时,训练速度很快。好比每次从百万数据样本中,取几百个数据点,算一个SGD梯度,更新一下模型参数。相比于标准梯度降低法的遍历所有样本,每输入一个样本更新一次参数,要快得多。
  • 缺点:
  • SGD在随机选择梯度的同时会引入噪声,使得权值更新的方向不必定正确。
  • 此外,SGD也没能单独克服局部最优解的问题

动量优化法

动量优化方法是在梯度降低法的基础上进行的改变,具备加速梯度降低的做用。通常有标准动量优化方法Momentum、NAG(Nesterov accelerated gradient)动量优化方法。性能

NAG在Tensorflow中与Momentum合并在同一函数tf.train.MomentumOptimizer中,能够经过参数配置启用。学习

Momentum

  • 使用动量(Momentum)的随机梯度降低法(SGD),主要思想是引入一个积攒历史梯度信息动量来加速SGD。
  • 从训练集中取一个大小为nn的小批量{X(1),X(2),...,X(n)}{X(1),X(2),...,X(n)}样本,对应的真实值分别为Y(i)Y(i),则Momentum优化表达式为:
     
     


  • 动量主要解决SGD的两个问题:一是随机梯度的方法(引入的噪声);二是Hessian矩阵病态问题(能够理解为SGD在收敛过程当中和正确梯度相比来回摆动比较大的问题)。
  • 理解策略为:因为当前权值的改变会受到上一次权值改变的影响,相似于小球向下滚动的时候带上了惯性。这样能够加快小球向下滚动的速度。

NAG

  • 牛顿加速梯度(NAG, Nesterov accelerated gradient)算法,是Momentum动量算法的变种。更新模型参数表达式以下:
     
  • Nesterov动量梯度的计算在模型参数施加当前速度以后,所以能够理解为往标准动量中添加了一个校订因子。
  • 理解策略:在Momentun中小球会盲目地跟从下坡的梯度,容易发生错误。因此须要一个更聪明的小球,能提早知道它要去哪里,还要知道走到坡底的时候速度慢下来而不是又冲上另外一个坡。计算Wtαvt1Wt−αvt−1能够表示小球下一个位置大概在哪里。从而能够提早知道下一个位置的梯度,而后使用到当前位置来更新参数。
  • 在凸批量梯度的状况下,Nesterov动量将额外偏差收敛率从O(1/k)(k)O(1/k)(k步后)改进到O(1/k2)O(1/k2)。然而,在随机梯度状况下,Nesterov动量对收敛率的做用却不是很大。

自适应学习率优化算法

自适应学习率优化算法针对于机器学习模型的学习率,传统的优化算法要么将学习率设置为常数要么根据训练次数调节学习率。极大忽视了学习率其余变化的可能性。然而,学习率对模型的性能有着显著的影响,所以须要采起一些策略来想办法更新学习率,从而提升训练速度。
目前的自适应学习率优化算法主要有:AdaGrad算法,RMSProp算法,Adam算法以及AdaDelta算法。优化

AdaGrad算法

思想:atom

  • AdaGrad算法,独立地适应全部模型参数的学习率,缩放每一个参数反比于其全部梯度历史平均值总和的平方根。具备代价函数最大梯度的参数相应地有个快速降低的学习率,而具备小梯度的参数在学习率上有相对较小的降低。

算法描述:spa

  • AdaGrad算法优化策略通常能够表示为:
     


    假定一个多分类问题,ii表示第ii个分类,tt表示第tt迭代同时也表示分类ii累计出现的次数。η0η0表示初始的学习率取值通常为0.01,ϵϵ是一个取值很小的数(通常为1e-8)为了不分母为0。WtWt表示tt时刻即第tt迭代模型的参数,gt,i=ΔJ(Wt,i)gt,i=ΔJ(Wt,i)表示tt时刻,指定分类ii,代价函数J()J(⋅)关于WW的梯度。
  • 从表达式能够看出,对出现比较多的类别数据,Adagrad给予愈来愈小的学习率,而对于比较少的类别数据,会给予较大的学习率。所以Adagrad适用于数据稀疏或者分布不平衡的数据集。
  • Adagrad 的主要优点在于不须要人为的调节学习率,它能够自动调节;缺点在于,随着迭代次数增多,学习率会愈来愈小,最终会趋近于0。

RMSProp算法

思想:

  • RMSProp算法修改了AdaGrad的梯度积累为指数加权的移动平均,使得其在非凸设定下效果更好。

算法描述:

  • RMSProp算法的通常策略能够表示为:
     
  • RMSProp借鉴了Adagrad的思想,观察表达式,分母为E[g2]t+ϵ−−−−−−−−√E[g2]t+ϵ。因为取了个加权平均,避免了学习率愈来愈低的的问题,并且能自适应地调节学习率。
  • RMSProp算法在经验上已经被证实是一种有效且实用的深度神经网络优化算法。目前它是深度学习从业者常常采用的优化方法之一。

AdaDelta算法

思想:AdaGrad算法和RMSProp算法都须要指定全局学习率,AdaDelta算法结合两种算法每次参数的更新步长即:

 
  • 从表达式能够看出,AdaDelta不须要设置一个默认的全局学习率。

评价:

  • 在模型训练的初期和中期,AdaDelta表现很好,加速效果不错,训练速度快。
  • 在模型训练的后期,模型会反复地在局部最小值附近抖动。

Adam算法

思想:

  • 首先,Adam中动量直接并入了梯度一阶矩(指数加权)的估计。其次,相比于缺乏修正因子致使二阶矩估计可能在训练初期具备很高偏置的RMSProp,Adam包括偏置修正,修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩估计。

算法描述:

 

评价:Adam一般被认为对超参数的选择至关鲁棒,尽管学习率有时须要从建议的默认修改。

各类优化器的比较

终于结束的漫长的理论分析,下面对各类优化器作一些有趣的比较。

可视化比较

(1) 示例一

 

这里写图片描述

 

上图描述了在一个曲面上,6种优化器的表现,从中能够大体看出:

① 降低速度:

  • 三个自适应学习优化器Adagrad、RMSProp与AdaDelta的降低速度明显比SGD要快,其中,Adagrad和RMSProp齐头并进,要比AdaDelta要快。
  • 两个动量优化器Momentum和NAG因为刚开始走了岔路,初期降低的慢;随着慢慢调整,降低速度愈来愈快,其中NAG到后期甚至超过了领先的Adagrad和RMSProp。

② 降低轨迹:

  • SGD和三个自适应优化器轨迹大体相同。两个动量优化器初期走了“岔路”,后期也调整了过来。

(2) 示例二

 

这里写图片描述

 

上图在一个存在鞍点的曲面,比较6中优化器的性能表现,从图中大体能够看出:

  • 三个自适应学习率优化器没有进入鞍点,其中,AdaDelta降低速度最快,Adagrad和RMSprop则齐头并进。
  • 两个动量优化器Momentum和NAG以及SGD都顺势进入了鞍点。但两个动量优化器在鞍点抖动了一会,就逃离了鞍点并迅速地降低,后来居上超过了Adagrad和RMSProp。
  • 很遗憾,SGD进入了鞍点,却始终停留在了鞍点,没有再继续降低。

(3) 示例三

 

这里写图片描述

 

上图比较了6种优化器收敛到目标点(五角星)的运行过程,从图中能够大体看出:

① 在运行速度方面

  • 两个动量优化器Momentum和NAG的速度最快,其次是三个自适应学习率优化器AdaGrad、AdaDelta以及RMSProp,最慢的则是SGD。

② 在收敛轨迹方面

  • 两个动量优化器虽然运行速度很快,可是初中期走了很长的”岔路”。
  • 三个自适应优化器中,Adagrad初期走了岔路,但后来迅速地调整了过来,但相比其余两个走的路最长;AdaDelta和RMSprop的运行轨迹差很少,但在快接近目标的时候,RMSProp会发生很明显的抖动。
  • SGD相比于其余优化器,走的路径是最短的,路子也比较正。

应用于简单分类问题的比较

使用SGD优化器

#梯度降低:SGD优化器
train_step=tf.compat.v1.train.GradientDescentOptimizer(0.2).minimize(loss)
# Iter 0,Testing Accuracy 0.9236
# Iter 1,Testing Accuracy 0.9449
# Iter 2,Testing Accuracy 0.9508
# Iter 3,Testing Accuracy 0.9527
# Iter 4,Testing Accuracy 0.9591
# Iter 5,Testing Accuracy 0.962
# Iter 6,Testing Accuracy 0.9643
# Iter 7,Testing Accuracy 0.9672
# Iter 8,Testing Accuracy 0.9675
# Iter 9,Testing Accuracy 0.9696
# Iter 10,Testing Accuracy 0.9702

自适应学习率-使用AdaGrad优化器

#使用自适应学习率,使用AdaGrad优化器
train_step=tf.compat.v1.train.AdagradOptimizer(0.2).minimize(loss)
# Iter 0,Testing Accuracy 0.855
# Iter 1,Testing Accuracy 0.8647
# Iter 2,Testing Accuracy 0.957
# Iter 3,Testing Accuracy 0.9633
# Iter 4,Testing Accuracy 0.9683
# Iter 5,Testing Accuracy 0.9723
# Iter 6,Testing Accuracy 0.9707
# Iter 7,Testing Accuracy 0.9727
# Iter 8,Testing Accuracy 0.9748
# Iter 9,Testing Accuracy 0.9738
# Iter 10,Testing Accuracy 0.9752

 

使用RMSProp优化器

#使用自适应学习率:使用RMSProp优化器
train_step=tf.compat.v1.train.RMSPropOptimizer(0.02).minimize(loss)
# Iter 0,Testing Accuracy 0.9007
# Iter 1,Testing Accuracy 0.9102
# Iter 2,Testing Accuracy 0.9165
# Iter 3,Testing Accuracy 0.9298
# Iter 4,Testing Accuracy 0.9373
# Iter 5,Testing Accuracy 0.9205
# Iter 6,Testing Accuracy 0.9306
# Iter 7,Testing Accuracy 0.9422
# Iter 8,Testing Accuracy 0.9297
# Iter 9,Testing Accuracy 0.9417
# Iter 10,Testing Accuracy 0.9359

使用Adam优化器

# 使用自适应学习绿:使用Adam优化器
train_step=tf.compat.v1.train.AdamOptimizer(0.02,0.9).minimize(loss)
# Iter 0,Testing Accuracy 0.8112
# Iter 1,Testing Accuracy 0.8114
# Iter 2,Testing Accuracy 0.81
# Iter 3,Testing Accuracy 0.7948
# Iter 4,Testing Accuracy 0.8212
# Iter 5,Testing Accuracy 0.8145
# Iter 6,Testing Accuracy 0.8443
# Iter 7,Testing Accuracy 0.8678
# Iter 8,Testing Accuracy 0.8394
# Iter 9,Testing Accuracy 0.8934
# Iter 10,Testing Accuracy 0.8917

使用AdaDelta优化器

#使用自适应学习绿:使用AdaDelta优化器
train_step=tf.compat.v1.train.AdadeltaOptimizer(0.02).minimize(loss)
# Iter 0,Testing Accuracy 0.4545
# Iter 1,Testing Accuracy 0.5644
# Iter 2,Testing Accuracy 0.7053
# Iter 3,Testing Accuracy 0.759
# Iter 4,Testing Accuracy 0.7785
# Iter 5,Testing Accuracy 0.7925
# Iter 6,Testing Accuracy 0.8028
# Iter 7,Testing Accuracy 0.8114
# Iter 8,Testing Accuracy 0.8165
# Iter 9,Testing Accuracy 0.82
# Iter 10,Testing Accuracy 0.8237

动量优化法-Momentum优化器

#使用动量优化法:Momentum优化器
train_step=tf.compat.v1.train.MomentumOptimizer(0.2,0.5).minimize(loss)
# Iter 0,Testing Accuracy 0.8425
# Iter 1,Testing Accuracy 0.8539
# Iter 2,Testing Accuracy 0.9527
# Iter 3,Testing Accuracy 0.9588
# Iter 4,Testing Accuracy 0.9665
# Iter 5,Testing Accuracy 0.9697
# Iter 6,Testing Accuracy 0.9699
# Iter 7,Testing Accuracy 0.9724
# Iter 8,Testing Accuracy 0.9723
# Iter 9,Testing Accuracy 0.9719
# Iter 10,Testing Accuracy 0.9731

动量优化法-NAG优化器

#使用动量优化法:使用NAG优化器
train_step=tf.compat.v1.train.MomentumOptimizer(learning_rate=0.2,momentum=0.5,use_nesterov=True).minimize(loss)
# Iter 0,Testing Accuracy 0.8483
# Iter 1,Testing Accuracy 0.8606
# Iter 2,Testing Accuracy 0.953
# Iter 3,Testing Accuracy 0.9558
# Iter 4,Testing Accuracy 0.9601
# Iter 5,Testing Accuracy 0.9657
# Iter 6,Testing Accuracy 0.9666
# Iter 7,Testing Accuracy 0.9683
# Iter 8,Testing Accuracy 0.9721
# Iter 9,Testing Accuracy 0.9721
# Iter 10,Testing Accuracy 0.9717

NAG在Tensorflow中与Momentum合并在同一函数tf.train.MomentumOptimizer中,能够经过参数配置启用。

综上,比较来讲AdaGrad优化器和Momentum优化器相对来讲比较好

相关文章
相关标签/搜索