【算法】最优化之RDA正则化双平均

sgd: 对损失项和正则化项一刀切,没对正则化项区别对待。以致 1)优化速度慢;2)准确性不高。 rda: regularized dual averaging 正则双平均 对损失项和正则化项区分考虑,获得正则化项的闭合形解。在优化速度方面优于sgd。 为什么称为双平均? 在损失项子梯度中,一是对历史子梯度的平均,二是对当前子梯度的平均。
相关文章
相关标签/搜索