SVRG在逻辑二分类模型上的应用

1.随机方差缩减梯度(SVRG) 在实际问题中为了保证SGD收敛,须将步长逐渐缩短到0,这使得SGD收敛速度很慢。小步长的需求是来自于SGD随机取样造成的方差,但是存在下面描述的修复。每轮都使用来估计,并用来接近最优参数,称为的“快照”。比如每经过m次SDG迭代,就抓拍一个,记为本轮的。此外还要计算下每轮的平均梯度                                          
相关文章
相关标签/搜索