Adam的原理

Adam是从2个算法脱胎而来的:AdaGrad和RMSProp,它集合了2个算法的主要优点,同时也做了自己的一些创新,大概有这么几个卖点: 计算高效,方便实现,内存使用也很少。 更新步长和梯度大小无关,只和alpha、beta_1、beta_2有关系。并且由它们决定步长的理论上限。 对目标函数没有平稳要求,即loss function可以随着时间变化 能较好的处理噪音样本,并且天然具有退火效果 能
相关文章
相关标签/搜索