论文笔记——Asynchronous Stochastic Gradient Descent with Delay Compensation

论文笔记——Asynchronous Stochastic Gradient Descent with Delay Compensation 论文对ASGD算法进行了改进,对具有延迟的梯度设计了新的更新规则。 ASGD 下图为ASGD训练过程,梯度gt应该对应模型wt,但是由于延迟,在参数服务器接收到时,模型已经更新到了wt+τ,ASGD对于延迟的梯度不做处理。 论文利用泰勒展开,将梯度展开,尝试
相关文章
相关标签/搜索