深度学习高速路上，PaddlePaddle正在弯道超车

时间 2019-11-12

标签深度学习高速路上 paddlepaddle 正在弯道超车繁體版

原文原文链接

深度学习是机器学习中一种基于对数据进行表证学习的方法，近些年不断发展并广受欢迎。研究热潮的持续高涨，带来各类开源深度学习框架层出不穷，其中包括TensorFlow、Caffe、Keras、CNTK、Torch7、MXNet、Leaf、PaddlePaddle、Theano、DeepLearning4、Lasagne、Neon等，在此背景下，PaddlePaddle如何在这条深度学习的高速路上弯道超车，看PaddlePaddle架构师潘欣如何解答。程序员

如下为潘欣老师演讲实录编程

借助传统编程语言理念的全功能深度学习框架安全

PaddlePaddle是国内惟一的开源深度学习平台，由百度自主研发并具有彻底的自主核心技术和知识产权，支持从建模、网络、强化学习、语音识别到最后部署的所有环节，具备易学、易用、安全、高效等特色，是全功能的深度学习框架。网络

图一 PaddlePaddle核心框架结构多线程

PaddlePaddle的核心架构如图所示，它的总体运行流程是经过API接口组输入/输出网络，并在底层作统一转化，而后经过Runtime进行训练，最后转换成线上部署的模型。线上部署分为服务端和移动端，为应对不一样体系平台、能耗的要求，咱们部署不一样的设备。架构

其中左侧第一层是API接口，它采用Python语言编写，大体分为两大类，一类是组网类API，包括控制逻辑、构成逻辑、计算逻辑、IO的模块、读取数据的模块等；另外一类是执行类底层API，把用户组好的模型进行分析，并将计算方法进行合并优化，以此提升训练速度。并发

除此以外，对于API的组网，PaddlePaddle还有一些新特性。众所周知，目前不少的框架是在用户层暴露出来一个图的接口，以此进行组网。但咱们认为，大多数的程序员更熟悉的是传统的如变量、block的流式程序的概念，而不是经过一个图去链接算子、编写模型。因此在PaddlePaddle API接口的设计中，咱们使用了这些传统编程语言的理念，使得最终编写更相似于传统编程语言。框架

组网类API机器学习

组网类API包含通用、控制、计算、优化、IO等类型的API。异步

Variables：PaddlePaddle中的变量，能够是Tensor、 Parameter，或RPCClient。概念相似高级语言中的变量，有不一样类型。
Layers：PaddlePaddle中用户配置模型的基础模块，Layer表示一个或者一组紧密关联的计算，Layers能够经过输入输出链接起来。
Block：Block表示一组连续的计算逻辑，一般是一个或多个顺序Layer组成。一般主模型是一个Block0。另外在Control Flow中，好比While、Iflese，也会单独造成一个子Block。
Control Flow：PaddlePaddle支持If-else、While、Switch等编程语言中常见的Control Flow，以确保模型的灵活表达。Control Flow一般以Block的形式存在。
Program：包含了1个或者多个Block，表示一个完整的模型执行单元。执行器须要完整的执行Program，并保证读写关系符合用户的预期。

执行类API

示例

训练Runtime

多卡并行-SSA Graph

将模型Program转换成一个可并发执行的Intermediate Representation(IR)；利用Static Single Assignment为Variable加Version，获得一个正确的依赖关系；Build Pass中插入通讯节点和额外的依赖关系。
基于图依赖的执行：Input ready的全部Operator能够并发执行；Operators在多个GPU上数据并行执行；多卡Gradient聚合，确保数据并行中参数一致。

多卡并行-Profile

多机分布式

多机分布式支持Ring、Pserver两种模式。

Ring：自动插入多机Communicator，多机同步训练，支持高性能RDMA通讯。
Pserver：拆分红Trainer Program和PserverProgram。支持同步和异步的分布式训练。Trainer端多线程异步发送Gradient；Pserver端多线程异步Apply Optimization。

用户Focus Modeling, 框架自动多机化部署

发现Optimizer Operators、Parameters、Gradients。
Split和Assign到Parameter Server上。
在Trainer和Parameter Server上插入发送和接收的通讯节点。
生成在Trainer执行的Program。
生成在Parameter Server执行的Program。

多机分布式的通讯和集群

支持MPI、RPC等通讯方式。
RPC未来会换成Brpc，并提供原生的RPC+RDMA支持，极大提升通讯效率。
支持Kubernetes集群部署。

多机分布式下的容错

Trainer或者PserverFailure后能够重启恢复训练。即将支持Pserver端的分布式CheckPoint和恢复，支持大规模Embedding。

大规模稀疏数据分布式模型训练

在互联网场景中，亿级的用户天天产生着百亿级的用户数据，百度的搜索和推荐系统是大规模稀疏数据分布式模型训练的主要应用场景。

如何利用这些数据训练出更好的模型来给用户提供服务，对机器学习框架提出了很高的要求。主要包括：

样本数量大，单周20T+。
特征维度多达千亿甚至万亿。
T级别，参数大。
小时级更新，时效要求高。

注：文中所提架构基于PaddlePaddle 0.14版本，将来，会发出更为稳定的新版本，欢迎你们关注

提问环节

提问：在分布式训练的时候，有同步和异步两种，何时适合用同步，何时适合用异步？

潘欣：目前没有机械化的方法肯定这个问题，可是有一些经验能够跟你们分享。如在图像这个领域用同步更稳定，还有最近的翻译模型，也是经过同步的方法训练。固然，并非说同步必定比异步好。根据过去在公司的经验，中国的主流实际上是异步，异步的好处是训练更加可扩展，对于不少传统NLP任务，异步比同步要好。因此要验证这个问题须要在实验中比较。

实录结束

潘欣，百度深度学习框架PaddlePaddle的架构设计以及核心模块开发负责人，百度深度学习技术平台部TC主席。在计算机视觉CVPR和云计算SoCC等国际会议发表多篇论文。