Adam那么棒,为什么还对SGD念念不忘 (1)

“ 说到优化算法,入门级必从 SGD 学起,老司机则会告诉你更好的还有AdaGrad / AdaDelta,或者直接无脑用 Adam。可是看看学术界的最新 paper,却发现一众大神还在用着入门级的 SGD,最多加个 Momentum 或者 Nesterov,还经常会黑一下 Adam。这是为什么呢?” 机器学习界有一群炼丹师,他们每天的日常是: 拿来药材(数据),架起八卦炉(模型),点着六味真火(
相关文章
相关标签/搜索