从Stochastic Gradient Descent到Adaptive Moment Estimation

引言 深度学习优化算法,基本的发展历程就是: SGD -> SGDM -> NAG ->AdaGrad -> AdaDelta -> Adam -> Nadam 当说到优化算法时,我们说的是什么? 优化算法 对于优化算法,给定一个具有参数θ的目标函数,一般会定义为损失函数,如 L = 1 / N ∑ L i L = 1/N ∑ Li L=1/N∑Li(每个样本损失函数的叠加求均值。 那么优化的目标
相关文章
相关标签/搜索