从Stochastic Gradient Descent到Adaptive Moment Estimation

时间 2020-12-24

原文原文链接

引言深度学习优化算法，基本的发展历程就是： SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 当说到优化算法时，我们说的是什么？优化算法对于优化算法，给定一个具有参数θ的目标函数，一般会定义为损失函数，如 L = 1 / N ∑ L i L = 1/N ∑ Li L=1/N∑Li（每个样本损失函数的叠加求均值。那么优化的目标