【算法】最优化之RDA正则化双平均

时间 2021-01-18

原文原文链接

sgd：对损失项和正则化项一刀切，没对正则化项区别对待。以致 1）优化速度慢；2）准确性不高。 rda： regularized dual averaging 正则双平均对损失项和正则化项区分考虑，获得正则化项的闭合形解。在优化速度方面优于sgd。为什么称为双平均？在损失项子梯度中，一是对历史子梯度的平均，二是对当前子梯度的平均。