TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning 论文阅读

问题描述及算法 考虑下图所示的分布式机器学习架构. 我们用 t t t表示迭代训练的次数, N N N代表节点的数量,工作节点 i i i计算得到的梯度向量为 g t ( i ) \mathbf{g}^{(i)}_t gt(i)​,输入的样本为 z t ( i ) \mathbf{z}^{(i)}_t zt(i)​. 为了能够进一步实现压缩,在训练过程中中央服务器并不保存模型,每个工作节点都保存一
相关文章
相关标签/搜索