简单解释Momentum,RMSprop,Adam优化算法

咱们初学的算法通常都是从SGD入门的,参数更新是:算法

 
 

它的梯度路线为:网络

 
 

可是能够看出它的上下波动很大,收敛的速度很慢。所以根据这些缘由,有人提出了Momentum优化算法,这个是基于SGD的,简单理解,就是为了防止波动,取前几回波动的平均值当作此次的W。这个就用到理论的计算梯度的指数加权平均数,引进超参数beta(通常取0.9):学习

beta和1-beta分别表明以前的dW权重和如今的权重。优化

效果图以下(红色):3d

 
 

下面继续另外一种加速降低的一个算法RMSprop,全称root mean square prop。也用到权重超参数beta(通常取0.999),和Momentum类似:orm

 
 

其中dW的平方是(dW)^2,db的平方是(db)^2。若是严谨些,防止分母为0,在分数下加上个特别小的一个值epsilon,一般取10^-8。blog

效果图以下(绿色):深度学习

 
 

研究者们其实提出了不少的优化算法,能够解决一些问题,可是很难扩展到多种神经网络。而Momentum,RMSprop是很长时间来最经得住考研的优化算法,适合用于不一样的深度学习结构。因此有人就有想法,何不将这俩的方法结合到一块儿呢?而后,pia ji一下,Adam问世了。全程Adaptive Moment Estimation。算法中一般beta_1=0.9,beta_2=0.999。io

算法为(很明显看出是二者的结合,其中多了一步V和S的调节,t为迭代次数,除以1-beta^t表示越近的重要,越远的就能够忽视):入门

 
 

由于Adam结合上述两种优化算法的优势于一身,因此如今常常用的是Adam优化算法。

相关文章
相关标签/搜索