随机梯度下降及其变种的综述

  随机梯度算法作为重要的一阶优化算法,每次采用小部分样本进行梯度的更新,迭代速度比较快。在随机梯度算法的基础上,为了选择合适的学习率,出现动量法与自适应学习率算法。为了更好的学习稀疏特征,随机梯度下降算法融合RDA以及FOBOS形成FTRL算法。由于随机梯度下降算法每次采用部分样本进行梯度计算,引入较大的方差,因此提出减少方差的随机梯度算法svrg以及sag算法。本文将从随机梯度下降算法开始,并
相关文章
相关标签/搜索