基于TensorFlow的多机多卡分布式训练搭建方法

1.概述 TensorFlow分布式是基于GRPC库实现的高性能集群训练框架,能有效的利用多机多卡资源,将大型的模型或者代码拆分到各个节点分别完成,从而实现高速的模型训练。python 以下图所示,tensorflow的分布式集群中存在的节点主要有两种:ps节点和worker节点,ps节点是用于保存和计算训练参数的节点;worker节点是用于训练的节点。因为ps和worker节点都有可能存在多个,
相关文章
相关标签/搜索