Adaptive Gradient Methods with Dynamic Bound of Learning Rate

北大和浙大本科生的这篇ICLR论文所提出的优化算法被媒体称为”拳打Adam,脚踢SGD“,该工作为他们在滴滴AI实验室实习时完成。这篇论文提出了两种优化算法,分别是Adabound和AMSBound,两个算法分别是Adam和AMSGrad的变体。在概括这篇论文的研究之前,首先介绍一下Adam和AMSGrad。 本文传送机 回顾之Adam 回顾之AMSGrad 论文内容 Abstract Intro
相关文章
相关标签/搜索