(转)优化时该用SGD,还是用Adam?——绝对干货满满!

优化时该用SGD,还是用Adam?——绝对干货满满!   最近在实验中发现不同的优化算法以及batch_size真的对模型的训练结果有很大的影响,上网搜了很多关于各种优化算法(主要是SGD与Adam)的讲解,直到今天看到知乎上一位清华大神的总结与诠释,收获很大,特转载记录一下~ 原文(知乎)链接:   Adam那么棒,为什么还对SGD念念不忘 (1) —— 一个框架看懂优化算法   Adam那么棒
相关文章
相关标签/搜索