Adam那么棒，为什么还对SGD念念不忘 (1)

时间 2021-01-22

原文原文链接

“ 说到优化算法，入门级必从 SGD 学起，老司机则会告诉你更好的还有AdaGrad / AdaDelta，或者直接无脑用 Adam。可是看看学术界的最新 paper，却发现一众大神还在用着入门级的 SGD，最多加个 Momentum 或者 Nesterov，还经常会黑一下 Adam。这是为什么呢？” 机器学习界有一群炼丹师，他们每天的日常是：拿来药材（数据），架起八卦炉（模型），点着六味真火（