详解深度学习中的经常使用优化算法

说到优化算法,入门级必从SGD学起,老司机则会告诉你更好的还有AdaGrad / AdaDelta,或者直接无脑用Adam。但是看看学术界的最新paper,却发现一众大神还在用着入门级的SGD,最多加个Moment或者Nesterov ,还常常会黑一下Adam。好比 UC Berkeley的一篇论文就在Conclusion中写道:算法 Despite the fact that our exper
相关文章
相关标签/搜索