在调整模型更新权重和误差参数的方式时,你是否考虑过哪一种优化算法能使模型产生更好且更快的效果?应该用梯度降低,随机梯度降低,仍是Adam方法?html
这篇文章介绍了不一样优化算法之间的主要区别,以及如何选择最佳的优化方法。算法
优化算法的功能,是经过改善训练方式,来最小化(或最大化)损失函数E(x)。网络
模型内部有些参数,是用来计算测试集中目标值Y的真实值和预测值的误差程度的,基于这些参数,就造成了损失函数E(x)。函数
好比说,权重(W)和误差(b)就是这样的内部参数,通常用于计算输出值,在训练神经网络模型时起到主要做用。post
在有效地训练模型并产生准确结果时,模型的内部参数起到了很是重要的做用。这也是为何咱们应该用各类优化策略和算法,来更新和计算影响模型训练和模型输出的网络参数,使其逼近或达到最优值。学习
优化算法分为两大类:测试
1. 一阶优化算法优化
这种算法使用各参数的梯度值来最小化或最大化损失函数E(x)。最经常使用的一阶优化算法是梯度降低。动画
函数梯度:导数dy/dx的多变量表达式,用来表示y相对于x的瞬时变化率。每每为了计算多变量函数的导数时,会用梯度取代导数,并使用偏导数来计算梯度。梯度和导数之间的一个主要区别是函数的梯度造成了一个向量场。spa
所以,对单变量函数,使用导数来分析;而梯度是基于多变量函数而产生的。更多理论细节在这里再也不进行详细解释。
2. 二阶优化算法
二阶优化算法使用了二阶导数(也叫作Hessian方法)来最小化或最大化损失函数。因为二阶导数的计算成本很高,因此这种方法并无普遍使用。
梯度降低
在训练和优化智能系统时,梯度降低是一种最重要的技术和基础。梯度降低的功能是:
经过寻找最小值,控制方差,更新模型参数,最终使模型收敛。
网络更新参数的公式为:θ=θ−η×∇(θ).J(θ) ,其中η是学习率,∇(θ).J(θ)是损失函数J(θ)的梯度。
这是在神经网络中最经常使用的优化算法。
现在,梯度降低主要用于在神经网络模型中进行权重更新,即在一个方向上更新和调整模型的参数,来最小化损失函数。
2006年引入的反向传播技术,使得训练深层神经网络成为可能。反向传播技术是先在前向传播中计算输入信号的乘积及其对应的权重,而后将激活函数做用于这些乘积的总和。这种将输入信号转换为输出信号的方式,是一种对复杂非线性函数进行建模的重要手段,并引入了非线性激活函数,使得模型可以学习到几乎任意形式的函数映射。而后,在网络的反向传播过程当中回传相关偏差,使用梯度降低更新权重值,经过计算偏差函数E相对于权重参数W的梯度,在损失函数梯度的相反方向上更新权重参数。
图1:权重更新方向与梯度方向相反
图1显示了权重更新过程与梯度矢量偏差的方向相反,其中U形曲线为梯度。要注意到,当权重值W过小或太大时,会存在较大的偏差,须要更新和优化权重,使其转化为合适值,因此咱们试图在与梯度相反的方向找到一个局部最优值。
梯度降低的变体
传统的批量梯度降低将计算整个数据集梯度,但只会进行一次更新,所以在处理大型数据集时速度很慢且难以控制,甚至致使内存溢出。
权重更新的快慢是由学习率η决定的,而且能够在凸面偏差曲面中收敛到全局最优值,在非凸曲面中可能趋于局部最优值。
使用标准形式的批量梯度降低还有一个问题,就是在训练大型数据集时存在冗余的权重更新。
标准梯度降低的上述问题在随机梯度降低方法中获得了解决。
1. 随机梯度降低(SDG)
随机梯度降低(Stochastic gradient descent,SGD)对每一个训练样本进行参数更新,每次执行都进行一次更新,且执行速度更快。
θ=θ−η⋅∇(θ) × J(θ;x(i);y(i)),其中x(i)和y(i)为训练样本。
频繁的更新使得参数间具备高方差,损失函数会以不一样的强度波动。这其实是一件好事,由于它有助于咱们发现新的和可能更优的局部最小值,而标准梯度降低将只会收敛到某个局部最优值。
但SGD的问题是,因为频繁的更新和波动,最终将收敛到最小限度,并会因波动频繁存在超调量。
虽然已经代表,当缓慢下降学习率η时,标准梯度降低的收敛模式与SGD的模式相同。
图2:每一个训练样本中高方差的参数更新会致使损失函数大幅波动,所以咱们可能没法得到给出损失函数的最小值。
另外一种称为“小批量梯度降低”的变体,则能够解决高方差的参数更新和不稳定收敛的问题。
2. 小批量梯度降低
为了不SGD和标准梯度降低中存在的问题,一个改进方法为小批量梯度降低(Mini Batch Gradient Descent),由于对每一个批次中的n个训练样本,这种方法只执行一次更新。
使用小批量梯度降低的优势是:
1) 能够减小参数更新的波动,最终获得效果更好和更稳定的收敛。
2) 还可使用最新的深层学习库中通用的矩阵优化方法,使计算小批量数据的梯度更加高效。
3) 一般来讲,小批量样本的大小范围是从50到256,能够根据实际问题而有所不一样。
4) 在训练神经网络时,一般都会选择小批量梯度降低算法。
这种方法有时候仍是被成为SGD。
使用梯度降低及其变体时面临的挑战
1. 很难选择出合适的学习率。过小的学习率会致使网络收敛过于缓慢,而学习率太大可能会影响收敛,并致使损失函数在最小值上波动,甚至出现梯度发散。
2. 此外,相同的学习率并不适用于全部的参数更新。若是训练集数据很稀疏,且特征频率很是不一样,则不该该将其所有更新到相同的程度,可是对于不多出现的特征,应使用更大的更新率。
3. 在神经网络中,最小化非凸偏差函数的另外一个关键挑战是避免陷于多个其余局部最小值中。实际上,问题并不是源于局部极小值,而是来自鞍点,即一个维度向上倾斜且另外一维度向下倾斜的点。这些鞍点一般被相同偏差值的平面所包围,这使得SGD算法很难脱离出来,由于梯度在全部维度上接近于零。
进一步优化梯度降低
如今咱们要讨论用于进一步优化梯度降低的各类算法。
1. 动量
SGD方法中的高方差振荡使得网络很难稳定收敛,因此有研究者提出了一种称为动量(Momentum)的技术,经过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。换句话说,这种新方法将上个步骤中更新向量的份量’γ’添加到当前更新向量。
V(t)=γV(t−1)+η∇(θ).J(θ)
最后经过θ=θ−V(t)来更新参数。
动量项γ一般设定为0.9,或相近的某个值。
这里的动量与经典物理学中的动量是一致的,就像从山上投出一个球,在下落过程当中收集动量,小球的速度不断增长。
在参数更新过程当中,其原理相似:
1) 使网络能更优和更稳定的收敛;
2) 减小振荡过程。
当其梯度指向实际移动方向时,动量项γ增大;当梯度与实际移动方向相反时,γ减少。这种方式意味着动量项只对相关样本进行参数更新,减小了没必要要的参数更新,从而获得更快且稳定的收敛,也减小了振荡过程。
2. Nesterov梯度加速法
一位名叫Yurii Nesterov研究员,认为动量方法存在一个问题:
若是一个滚下山坡的球,盲目沿着斜坡下滑,这是很是不合适的。一个更聪明的球应该要注意到它将要去哪,所以在上坡再次向上倾斜时小球应该进行减速。
实际上,当小球达到曲线上的最低点时,动量至关高。因为高动量可能会致使其彻底地错过最小值,所以小球不知道什么时候进行减速,故继续向上移动。
Yurii Nesterov在1983年发表了一篇关于解决动量问题的论文,所以,咱们把这种方法叫作Nestrov梯度加速法。
在该方法中,他提出先根据以前的动量进行大步跳跃,而后计算梯度进行校订,从而实现参数更新。这种预更新方法能防止大幅振荡,不会错过最小值,并对参数更新更加敏感。
Nesterov梯度加速法(NAG)是一种赋予了动量项预知能力的方法,经过使用动量项γV(t−1)来更改参数θ。经过计算θ−γV(t−1),获得下一位置的参数近似值,这里的参数是一个粗略的概念。所以,咱们不是经过计算当前参数θ的梯度值,而是经过相关参数的大体将来位置,来有效地预知将来:
V(t)=γV(t−1)+η∇(θ)J( θ−γV(t−1) ),而后使用θ=θ−V(t)来更新参数。
如今,咱们经过使网络更新与偏差函数的斜率相适应,并依次加速SGD,也可根据每一个参数的重要性来调整和更新对应参数,以执行更大或更小的更新幅度。
3. Adagrad方法
Adagrad方法是经过参数来调整合适的学习率η,对稀疏参数进行大幅更新和对频繁参数进行小幅更新。所以,Adagrad方法很是适合处理稀疏数据。
在时间步长中,Adagrad方法基于每一个参数计算的过往梯度,为不一样参数θ设置不一样的学习率。
先前,每一个参数θ(i)使用相同的学习率,每次会对全部参数θ进行更新。在每一个时间步t中,Adagrad方法为每一个参数θ选取不一样的学习率,更新对应参数,而后进行向量化。为了简单起见,咱们把在t时刻参数θ(i)的损失函数梯度设为g(t,i)。
图3:参数更新公式
Adagrad方法是在每一个时间步中,根据过往已计算的参数梯度,来为每一个参数θ(i)修改对应的学习率η。
Adagrad方法的主要好处是,不须要手工来调整学习率。大多数参数使用了默认值0.01,且保持不变。
Adagrad方法的主要缺点是,学习率η老是在下降和衰减。
由于每一个附加项都是正的,在分母中累积了多个平方梯度值,故累积的总和在训练期间保持增加。这反过来又致使学习率降低,变为很小数量级的数字,该模型彻底中止学习,中止获取新的额外知识。
由于随着学习速度的愈来愈小,模型的学习能力迅速下降,并且收敛速度很是慢,须要很长的训练和学习,即学习速度下降。
另外一个叫作Adadelta的算法改善了这个学习率不断衰减的问题。
4. AdaDelta方法
这是一个AdaGrad的延伸方法,它倾向于解决其学习率衰减的问题。Adadelta不是累积全部以前的平方梯度,而是将累积以前梯度的窗口限制到某个固定大小w。
与以前无效地存储w先前的平方梯度不一样,梯度的和被递归地定义为全部先前平方梯度的衰减平均值。做为与动量项类似的分数γ,在t时刻的滑动平均值Eg²仅仅取决于先前的平均值和当前梯度值。
Eg²=γ.Eg²+(1−γ).g²(t),其中γ设置为与动量项相近的值,约为0.9。
Δθ(t)=−η⋅g(t,i).
θ(t+1)=θ(t)+Δθ(t)
图4:参数更新的最终公式
AdaDelta方法的另外一个优势是,已经不须要设置一个默认的学习率。
目前已完成的改进
1) 为每一个参数计算出不一样学习率;
2) 也计算了动量项momentum;
3) 防止学习率衰减或梯度消失等问题的出现。
还能够作什么改进?
在以前的方法中计算了每一个参数的对应学习率,可是为何不计算每一个参数的对应动量变化并独立存储呢?这就是Adam算法提出的改良点。
Adam算法
Adam算法即自适应时刻估计方法(Adaptive Moment Estimation),能计算每一个参数的自适应学习率。这个方法不只存储了AdaDelta先前平方梯度的指数衰减平均值,并且保持了先前梯度M(t)的指数衰减平均值,这一点与动量相似:
M(t)为梯度的第一时刻平均值,V(t)为梯度的第二时刻非中心方差值。
图5:两个公式分别为梯度的第一个时刻平均值和第二个时刻方差
则参数更新的最终公式为:
图6:参数更新的最终公式
其中,β1设为0.9,β2设为0.9999,ϵ设为10-8。
在实际应用中,Adam方法效果良好。与其余自适应学习率算法相比,其收敛速度更快,学习效果更为有效,并且能够纠正其余优化技术中存在的问题,如学习率消失、收敛过慢或是高方差的参数更新致使损失函数波动较大等问题。
对优化算法进行可视化
图8:对鞍点进行SGD优化
从上面的动画能够看出,自适应算法能很快收敛,并快速找到参数更新中正确的目标方向;而标准的SGD、NAG和动量项等方法收敛缓慢,且很难找到正确的方向。
结论
咱们应该使用哪一种优化器?
在构建神经网络模型时,选择出最佳的优化器,以便快速收敛并正确学习,同时调整内部参数,最大程度地最小化损失函数。
Adam在实际应用中效果良好,超过了其余的自适应技术。
若是输入数据集比较稀疏,SGD、NAG和动量项等方法可能效果很差。所以对于稀疏数据集,应该使用某种自适应学习率的方法,且另外一好处为不须要人为调整学习率,使用默认参数就可能得到最优值。
若是想使训练深层网络模型快速收敛或所构建的神经网络较为复杂,则应该使用Adam或其余自适应学习速率的方法,由于这些方法的实际效果更优。
但愿你能经过这篇文章,很好地理解不一样优化算法间的特性差别。
来自:知乎 量子位