adam和adamW

Adam的缺点和改进 Adam有很多的优点,但是在很多数据集上的最好效果还是用SGD with Momentum细调出来的。可见Adam的泛化性并不如SGD with Momentum。https://arxiV.org/pdf/1711.05101.pdf 中提出其中一个重要原因就是Adam中L2正则化项并不像在SGD中那么有效。 L2正则和Weight Decay在Adam这种自适应学习率算法
相关文章
相关标签/搜索