adam算法

Momentum是为了对冲mini-batch带来的抖动。 RMSprop是为了对hyper-parameter进行归一,均方根反向传播(RMSProp)。 这两个加起来就是Adam 看原始的RMSProp算法:  再看算法:其实就是Momentum+RMSProp的结合,然后再修正其偏差。   
相关文章
相关标签/搜索