从TensorFlow 到 Caffe2：盘点深度学习框架

时间 2019-11-17

标签 tensorflow caffe2 caffe 盘点深度学习框架繁體版

原文原文链接

机器之心报道html

本文首先介绍GitHub中最受欢迎的开源深度学习框架排名，而后再对其进行系统地对比前端

下图总结了在GitHub中最受欢迎的开源深度学习框架排名，该排名是基于各大框架在GitHub里的收藏数，这个数据由MitchDeFelice在2017年5月初完成。git

TensorFlowgithub

地址：https://www.tensorflow.org/web

TensorFlow最开始是由谷歌一个称之为DistBeliefV2的库发展而来，它是一个公司内部的深度神经网络库，隶属于谷歌大脑项目。有一些人认为TensorFlow是由Theano完全重构而来。算法

谷歌开源TensorFlow后，当即吸引了一大批开发爱好者。TensorFlow能够提供一系列的能力，例如图像识别、手写识别、语音识别、预测以及天然语言处理等。2015年11月9号，TensorFlow在Apache2.0协议下开源发布。编程

TensorFlow1.0版本已于2017年2月15日发布，这个版本是以前8个版本的优化改进版，其致力于解决Tensorflow以前遇到的一系列问题以及完善一些核心能力。TensorFlow得到成功的因素有：后端

TensorFlow提供了以下工具：服务器

TensorBoard：对于网络模型和效果来讲是一个设计优良的可视化工具。TensorFlowServing：能够保持相同的服务器架构和API，使得部署新算法和实验变得简单。TensorFlowServing提供了与TensorFlow模型开箱即用的整合，但同时还能很容易扩展到其它类型的模型和数据。网络

TensorFlow编程接口支持Python和C++。随着1.0版本的公布，Java、Go、R和HaskellAPI的alpha版本也将被支持。此外，TensorFlow还可在谷歌云和亚马孙云中运行。

随着0.12版本的发行，TensorFlow将支持Windows七、Windows10和Server2016。因为TensorFlow使用C++Eigen库，因此库可在ARM架构上编译和优化。这也就意味着你能够在各类服务器和移动设备上部署你的训练模型，而无需执行单独的模型解码器或者加载Python解释器。

TensorFlow支持细粒度的网格层，并且容许用户在无需用低级语言实现的状况下构建新的复杂的层类型。子图执行操做容许你在图的任意边缘引入和检索任意数据的结果。这对调试复杂的计算图模型颇有帮助。

分布式TensorFlow（DistributedTensorFlow）被加进了0.8版本，它容许模型并行，这意味着模型的不一样部分可在不一样的并行设备上被训练。

自2016年3月，斯坦福大学、伯克利大学、多伦多大学和Udacity都将这个框架做为一个免费的大规模在线开放课程进行教授。

TensorFlow的缺点以下：

TensorFlow的每一个计算流都必须构造为一个静态图，且缺少符号性循环（symbolicloops），这会带来一些计算困难。没有对视频识别颇有用的三维卷积（3-Dconvolution）。尽管TensorFlow如今比起始版本（v0.5）快了58倍，，但在执行性能方面依然落后于竞争对手。

Caffe

地址：http://caffe.berkeleyvision.org/

Caffe是贾扬清的杰做，目前他在FacebookAI平台担任首席工程师。Caffe多是自2013年末以来第一款主流的工业级深度学习工具包。正由于Caffe优秀的卷积模型，它已经成为计算机视觉界最流行的工具包之一，并在2014年的ImageNet挑战赛中一举夺魁。Caffe遵循BSD2-Clause协议。

Caffe的快速使其完美应用于实验研究和商业部署。Caffe可在英伟达单个K40GPU上天天处理6000万张图像。这大概是1毫秒预测一张图片，4毫秒学习一张图片的速度，并且最新的版本处理速度会更快。

Caffe基于C++，所以可在多种设备上编译。它跨平台运行，并包含Windows端口。Caffe支持C++、Matlab和Python编程接口。Caffe拥有一个庞大的用户社区，人们在其中为被称为「ModelZoo（https://github.com/BVLC/caffe/wiki/Model-Zoo）」的深度网络库作贡献。AlexNet和GoogleNet就是社群用户构建的两个流行网络。

虽然Caffe在视频识别领域是一个流行的深度学习网络，可是Caffe却不能像TensorFlow、CNTK和Theano那样支持细粒度网络层。构建复杂的层类型必须以低级语言完成。因为其遗留架构，Caffe对循环网络和语言建模的支持整体上很薄弱。

Caffe2

地址：https://caffe2.ai/

目前，贾扬清和他在Facebook的团队正在开发新一代框架Caffe2。今年4月18日，Facebook开源了Caffe2。Caffe2与Caffe的区别是什么？Caffe2更注重模块化，在移动端、大规模部署上表现卓越。如同TensorFlow，Caffe2使用C++Eigen库，支持ARM架构。

用一个实用脚本，Caffe上的模型可轻易地被转变到Caffe2上。Caffe设计的选择使得它处理视觉类型的难题时很完美。Caffe2延续了它对视觉类问题的支持，且增长了对天然语言处理、手写识别、时序预测有帮助的RNN和LSTM支持。

期待不久以后能看到Caffe2超越Caffe，就像它宣称的那样在深度学习社区流行。

在本周三英伟达推出Volta架构的第一块加速卡TeslaV100后，Caffe的开发者第一时间展现了TeslaV100在Caffe2上运行ResNet-50的评测。数据显示在新框架和新硬件的配合下，模型每秒钟能够处理4100张图片。

连接：https://caffe2.ai/blog/2017/05/10/caffe2-adds-FP16-training-support.html

CNTK

连接：https://github.com/Microsoft/CNTK/wiki

微软的CNTK（MicrosoftCognitiveToolkit）最初是面向语音识别的框架。CNTK支持RNN和CNN类型的网络模型，从而在处理图像、手写字体和语音识别问题上，它是很好的选择。使用Python或C++编程接口，CNTK支持64位的Linux和Windows系统，在MIT许可证下发布。

与TensorFlow和Theano一样，CNTK使用向量运算符的符号图（symbolicgraph）网络，支持如矩阵加/乘或卷积等向量操做。此外，像TensorFlow和Theano同样，CNTK有丰富的细粒度的网络层构建。构建块（操做）的细粒度使用户不须要使用低层次的语言（如Caffe）就能建立新的复杂的层类型。

CNTK也像Caffe同样基于C++架构，支持跨平台的CPU/GPU部署。CNTK在AzureGPULab上显示出最高效的分布式计算性能。目前，CNTK不支持ARM架构，这限制了其在移动设备上的功能。

MXNet

连接：http://mxnet.io/

MXNet（发音为mix-net）起源于卡内基梅隆大学和华盛顿大学的实验室。MXNet是一个全功能、可编程和可扩展的深度学习框架，支持最早进的深度学习模型。MXNet支持混合编程模型（命令式和声明式编程）和多种编程语言的代码（包括Python、C++、R、Scala、Julia、Matlab和JavaScript）。2017年1月30日，MXNet被列入ApacheIncubator开源项目。

MXNet支持深度学习架构，如卷积神经网络（CNN）、循环神经网络（RNN）和其包含的长短期记忆网络（LTSM）。该框架为图像、手写文字和语音的识别和预测以及天然语言处理提供了出色的工具。有些人称MXNet是世界上最好的图像分类器。

MXNet具备可扩展的强大技术能力，如GPU并行和内存镜像、快速编程器开发和可移植性。此外，MXNet与ApacheHadoopYARN（一种通用分布式应用程序管理框架）集成，使MXNet成为TensorFlow有力的竞争对手。

MXNet不只仅只是深度网络框架，它的区别在于支持生成对抗网络（GAN）模型。该模型启发自实验经济学方法的纳什均衡。

Torch

连接：http://torch.ch/

Torch由Facebook的RonanCollobert和SoumithChintala，Twitter的ClementFarabet（现任职于英伟达），以及GoogleDeepMind的KorayKavukcuoglu共同开发。不少科技巨头（如Facebook、Twitter和英伟达）都使用定制版的Torch用于人工智能研究，这大大促进了Torch的开发。Torch是BSD3协议下的开源项目。然而，随着Facebook对Caffe2的研究，以及其对移动设备的支持，Caffe2正成为主要的深度学习框架。

Torch的编程语言为Lua。Lua不是主流语言，在开发人员没有熟练掌握Lua以前，使用Torch很难提升开发的总体生产力。

Torch缺少TensorFlow的分布式应用程序管理框架，也缺少MXNet和Deeplearning4J对YARN的支持。缺少多种编程语言的API也限制了开发人员。

PyTorch

地址：http://pytorch.org/

PyTorch由AdamPaszke、SamGross与SoumithChintala等人牵头开发，其成员来自FacebookFAIR和其余多家实验室。它是一种Python优先的深度学习框架，在今年1月被开源，提供了两种高层面的功能：

使用强大的GPU加速的Tensor计算（相似numpy）

构建于基于tape的autograd系统的深度神经网络

该框架结合了Torch7高效灵活的GPU加速后端库与直观的Python前端，它的特色是快速成形、代码可读和支持最普遍的深度学习模型。若有须要，你能够复用你最喜欢的Python软件包（如numpy、scipy和Cython）来扩展PyTorch。该框架由于其灵活性和速度，在推出之后迅速获得了开发者和研究人员的青睐。随着GitHub上愈来愈多代码的出现，PyTorch做为新框架缺少资源的问题已经得以缓解。

Deeplearning4J

地址：https://deeplearning4j.org/

Deeplearning4J（DL4J）是用Java和Scala编写的Apache2.0协议下的开源、分布式神经网络库。DL4J最初由SkyMind公司的AdamGibson开发，是惟一集成了Hadoop和Spark的商业级深度学习网络，并经过Hadoop和Spark协调多个主机线程。DL4J使用Map-Reduce来训练网络，同时依赖其它库来执行大型矩阵操做。

DL4J框架支持任意芯片数的GPU并行运行（对训练过程相当重要），并支持YARN（Hadoop的分布式应用程序管理框架）。DL4J支持多种深度网络架构：RBM、DBN、卷积神经网络（CNN）、循环神经网络（RNN）、RNTN和长短期记忆网络（LTSM）。DL4J还对矢量化库Canova提供支持。

DL4J使用Java语言实现，本质上比Python快。在用多个GPU解决非平凡图像（non-trivialimage）识别任务时，它的速度与Caffe同样快。该框架在图像识别、欺诈检测和天然语言处理方面的表现出众。

Theano

地址：http://deeplearning.net/software/theano/

Theano由蒙特利尔大学算法学习人工智能实验室（MILA）维护。以Theano的创始人YoshuaBengio为首，该实验室是深度学习研究领域的重要贡献者，拥有约30至40名学生和教师。Theano支持快速开发高效的机器学习算法，在BSD协议下发布。

Theano的架构如同一个黑箱；整个代码库和接口使用Python，其中C/CUDA代码被打包成Python字符串。这使得开发人员很难导航（navigate）、调试和重构。

Theano开创了将符号图用于神经网络编程的趋势。Theano的符号式API支持循环控制（即scan），这使得实现RNN容易且高效。

Theano缺少分布式应用程序管理框架，只支持一种编程开发语言。Theano是很好的学术研究工具，在单个CPU上运行的效率比TensorFlow更有效。然而，在开发和支持大型分布式应用程序时，使用Theano可能会遇到挑战。

在了解这些深度学习框架的基本内容后，下面咱们能够看看它们之间在库资源、建模能力、速度等度量下的对比状况。

这组对比参考了多种公开基准评测，以及咱们在图像/语音识别应用时对这些技术的主观印象。此外，你须要注意：

语言

当你开始一个深度学习项目时，你最好使用一个支持你所会语言的框架。好比Caffe（C++）和Torch（Lua）只能支持有限的语言（最近，随着PyTorch的出现，状况有所改观）。因此若是你但愿选用上述两个框架，咱们建议你事先熟悉C++或Lua语言。相比之下，TensorFlow与MXNet具备丰富的多语言支持，即便你对C++感到陌生也可使用它们。

教程和资源

目前，各种深度学习框架的教程与可利用的资源在质量和数量上有着显著的不一样。Theano，TensorFlow，Torch和MXNet有着很详尽的文档教程，很容易被初学者理解和实现。与此相比，虽然微软的CNTK和英特尔的NervanaNeon也是强大的工具，咱们却不多能见到有关它们的新手级资料。此外，在研究过程当中，咱们发现GitHub社区的参与度不只能够用于准确地评价不一样工具的开发水平，并且仍是在搜索StackOverflow或repo的GitIssues时可否快速解决问题的参考性指标。固然，做为谷歌提供的框架，TensorFlow理所固然地在教程，资源，开发者和社区贡献者的数量上遥遥领先。

CNN建模能力

卷积神经网络（CNN）常常被用于图像识别、推荐引擎和天然语言识别等方向的应用。CNN由一组多层的神经网络组成，在运行时会将输入的数据进行预约义分类的评分。CNN也可用于回归分析，例如构成自动驾驶汽车中有关转向角的模型。在横评中，咱们评价一种框架的CNN建模能力考虑到如下几个特性：定义模型的机会空间、预构建层的可用性、以及可用于链接这些层的工具和功能。咱们发现，Theano，Caffe和MXNet都有很好的CNN建模能力。其中，TensorFlow由于易于创建的InceptionV3模型，Torch由于其丰富的CNN资源——包括易于使用的时间卷积集使得这两种框架在CNN建模能力上脱颖而出。

RNN建模能力

循环神经网络（RNN）经常使用于语音识别，时间序列预测，图像字幕和其余须要处理顺序信息的任务。因为预建的RNN模型不如CNN数量多，所以，若是你已经有一个RNN深度学习项目，优先考虑旧RNN模型是在哪一种框架里实现的最重要。目前，Caffe上的RNN资源最少，而Microsoft的CNTK和Torch有丰富的RNN教程和预构建模型。固然，最流行的TensorFlow中也有一些RNN资源，TFLearn和Keras中更有不少使用TensorFlow的RNN示例。

架构

为在特定框架中构建和训练新模型，易于使用和模块化的前端是相当重要的。TensorFlow，Torch和MXNet都有直观而模块化的架构，让开发相对变得简单。相比之下，咱们在Caffe这样的框架上须要进行大量的工做才能建立一个新层。另外咱们发如今开发过程当中，由于有TensorBoardwebGUI等应用的存在，TensorFlow极易在训练中和训练后进行debug和监控。

速度

Torch和Nervana具备开源卷积神经网络基准测试的最佳性能：

https://github.com/soumith/convnet-benchmarks/blob/master/README.md

Tensorflow的性能在大多数测试中是具备竞争力的，而Caffe和Theano稍稍落后：

https://github.com/tobigithub/tensorflow-deep-learning/wiki/tf-benchmarks

微软声称他们的CNTK在一些RNN训练任务中有最快的速度。

在另外一项对比Theano、Torch和TensorFlow的RNN性能的研究中，Theano是其中最快的：

https://arxiv.org/abs/1511.06435

多GPU支持

大多数深度学习应用都须要用到巨量的浮点运算（FLOP）。例如，百度的DeepSpeech识别模型须要10sExaFLOPs用于训练，这是大于10e18的计算量：

https://arxiv.org/abs/1512.02595

考虑到目前英伟达Pascal架构的TitanX等顶级显卡能够每秒执行10e9FLOP：

https://www.nvidia.com/en-us/geforce/products/10series/titan-x-pascal/

所以，假如须要在大型数据集上训练一个新模型——用单GPU机器的话——可能会须要一个星期之久。为了减小构建模型所需的时间，咱们须要使用多GPU并联的方式组建本身的机器。幸运的是，上述大部分架构均可以很好地支持多GPU运算。其中，据报道MXNet有着最好的多GPU优化引擎：

http://www.allthingsdistributed.com/2016/11/mxnet-default-framework-deep-learning-aws.html

Keras兼容性

Keras是一个用于快速构建深度学习原型的高级库。咱们在实践中发现，它是数据科学家应用深度学习的好帮手。Keras目前支持两种后端框架：TensorFlow与Theano，并且Keras再过不久就会成为TensorFlow的默认API：

http://www.fast.ai/2017/01/03/keras/

尽管如此，Keras的做者表示，这一高级库在将来仍会做为支持多种框架的前端存在：

https://github.com/fchollet/keras/issues/5050#issuecomment-272945570

总结

若是你想要开始深度学习，你应该从评估本身的团队技能和业务需求开始。例如，若是一个以Python为中心的团队想开发图像识别的应用程序，你应该使用TensorFlow，由于它有丰富的资源，较好性能和完整的原型工具。若是一个有Lua能力的团队但愿将RNN大规模应用到生产环境中去，他们则会受益于Torch的高速和强大的RNN建模能力。

将来，咱们将继续讨论在更大规模的应用中这些框架的表现。这些挑战包括多机并联时的多GPU优化，多种开源库的兼容性，如CMUSphinx和Kaldi等，尽请期待。