分布式 TensorFlow：Distribution Strategy API 丨Google 开发者大会 2018

时间 2019-12-06

标签分布式 tensorflow distribution strategy api google 开发者大会栏目系统架构繁體版

原文原文链接

Google 开发者大会 (Google Developer Days，简称 GDD) 是展现 Google 最新开发者产品和平台的全球盛会，旨在帮助你快速开发优质应用，发展和留住活跃用户群，充分利用各类工具得到更多收益。2018 Google 开发者大会于 9 月 20 日和 21 日于上海举办。👉Google 开发者大会 2018 掘金专题算法

2018 年 9 月 21 日周玥枫（Google Brain 软件工程师）带来一场《分布式 TensorFlow：Distribution Strategy API》的演讲，本文将对演讲作一个回顾。bash

为何要分布式训练？

如上图所示，在单个 GPU 训练 Accuracy 须要花费 87 个小时。可是在实际的生产环境中，咱们花费如此多的时间在单个模型的训练上。若是咱们把时间从几天压缩到几个小时的话，在一样的时间里，能够训练更多的模型，尝试更多的想法，生产力将大大提升，因此使用分布式训练是实际生产环境所须要的。

Distribution Strategy API

目标：

简单易用 - 极少的代码修改
优秀的开箱性能
多功能 - 支持不一样的分布式架构和 API

用Keras 训练 ResNet50 (非分布式)

train_dataset = tf.data.Dataset(...)
eval_dataset = tf.data.Dataset(...)
model = tf.keras.applications.ReyNet50()
optimizer = tf.train.GradientDescentOptimizer(learning_rate = 0.1)

model.compile(loss = "categorcial_crossentropy",optimizer = optimizer)

model.fit(train_dataset, epochs = 10)
model.evaluate(eval_dataset)
复制代码

用Keras 在多个 GPU 上训练 ResNet50 （在 TensorFlow r1.11 中可用）

train_dataset = tf.data.Dataset(...)
eval_dataset = tf.data.Dataset(...)
model = tf.keras.applications.ReyNet50()
optimizer = tf.train.GradientDescentOptimizer(learning_rate = 0.1)

strategy = tf.contrib.distribute.MirroredStrategy()
model.compile(loss = "categorcial_crossentropy",optimizer = optimizer, 
    distribute = strategy)

model.fit(train_dataset, epochs = 10)
model.evaluate(eval_dataset)
复制代码

经过对比咱们能够发现，仅仅只是对两行代码的修改就能实现多 GPU 的训练。即便用MirroredStrategy API 无需修改 input pipeline ，无需修改模型、训练循环就能够实现多 GPU 训练，而且无缝支持 Checkpoints，metrics, summaries.架构