深度学习各种优化器简介

深度学习中的优化器的思想来源基本上都是梯度下降(Gradient Descent) 根据以上框架,我们来分析和比较梯度下降的各种变种算法。 Vanilla SGD(朴素SGD) 朴素SGD最为简单且没有动量的概念。 注意这里的I2是指单位矩阵的平方。 SGD的缺点在于收敛速度慢,可能在鞍点处震荡,并且如何选择学习率是SGD的一大难点。 Momentum(动量法) SGD在遇到沟壑时容易陷入震荡。为
相关文章
相关标签/搜索