A Convergence Analysis of Distributed SGD with Communication-Efficient Gradient Sparsification 论文阅读

1 Introduction 随机梯度下降的更新流程为 其中 x ∈ R n x\in \mathbb{R}^n x∈Rn为模型参数,我们可以给定包含 P P P个工作节点的集群来加快训练的过程,其中第 p p p个节点计算得到的更新为 G p ( x t ) G^p(x_t) Gp(xt​),更新过程修改为 这种同步的随机梯度下降算法称为S-SGD.理想情况下训练的速度可以加快了P倍,但由于受到
相关文章
相关标签/搜索