延迟补偿的异步随机梯度下降(ASGD with DC)

摘要 随着深度学习快速发展,目前普遍使用大数据训练庞大神经网络。因为效率高,ASGD广泛使用,但是有梯度延迟的缺陷。这是因为当一个本地worker将梯度push到全局模型中时,可能这个全局模型已经被其他worker将梯度更新过了,这样本地worker push的梯度就是延迟的。因此本文提出补偿延迟的一个新技术,为了使ASGD更接近于SGD的优化效果。这是利用梯度函数的泰勒展开来有效逼近损耗函数的H
相关文章
相关标签/搜索