TVM 是什么？A compiler stack，graph level / operator level optimization，目的是（不一样框架的）深度学习模型在不一样硬件平台上提升 performance (我要更快！)html

TVM, a compiler that takes a high-level specification of a deep learning program from existing frameworks and generates low-level optimized code for a diverse set of hardware back-ends.前端

compiler比较好理解。C编译器将C代码转换为汇编，再进一步处理成CPU能够理解的机器码。TVM的compiler是指将不一样前端深度学习框架训练的模型，转换为统一的中间语言表示。stack个人理解是，TVM还提供了后续处理方法，对IR进行优化（graph / operator level），并转换为目标硬件上的代码逻辑（可能会进行benchmark，反复进行上述优化），从而实现了端到端的深度学习模型部署。java

我刚刚接触TVM，这篇主要介绍了如何编译TVM，以及如何使用TVM加载mxnet模型，进行前向计算。Hello TVM!node

背景介绍

随着深度学习逐渐从研究所的“伊甸园”迅速在工业界的铺开，摆在你们面前的问题是如何将深度学习模型部署到目标硬件平台上，可以多快好省地完成前向计算，从而提供更好的用户体验，~~同时为老板省钱，还能减小碳排放来造福子孙~~。python

和单纯作研究相比，在工业界咱们主要遇到了两个问题：ios

深度学习框架实在是太 $^{TM}$
GPU实在是太 $^{TM}$

为了解决第一个问题，TVM内部实现了本身的IR，能够将上面这些主流深度学习框架的模型转换为统一的内部表示，以便后续处理。若想要详细了解，能够看下NNVM这篇博客：NNVM Compiler: Open Compiler for AI Frameworks。这张图应该可以说明NNVM在TVM中起到的做用。c++

为了解决第二个问题，TVM内部有多重机制来作优化。其中一个特色是，使用机器学习（结合专家知识）的方法，经过在目标硬件上跑大量trial，来得到该硬件上相关运算（例如卷积）的最优实现。这使得TVM可以作到快速为新型硬件或新的op作优化。咱们知道，在GPU上咱们站在Nvidia内部专家的肩膀上，使用CUDA / CUDNN / CUBLAS编程。但相比于Conv / Pooling等Nvidia已经优化的很好了的op，咱们本身写的op极可能效率不高。或者在新的硬件上，没有相似CUDA的生态，如何对网络进行调优？TVM这种基于机器学习的方法给出了一个可行的方案。咱们只需给定参数的搜索空间（少许的人类专家知识），就能够将剩下的工做交给TVM。若是对此感兴趣，能够阅读TVM中关于AutoTuner的介绍和tutorial：Auto-tuning a convolutional network for ARM CPU。git

编译

个人环境为Debian 8，CUDA 9。github

准备代码

config文件

编辑config文件，打开CUDA / BLAS / cuBLAS / CUDNN的开关。注意下LLVM的开关。LLVM能够从这个页面LLVM Download下载，我以前就已经下载好，版本为7.0。若是你像我同样是Debian8，能够使用for Ubuntu14.04的那个版本。因为是已经编译好的二进制包，下载以后解压便可。算法

找到这一行，改为

编译

这里有个坑，由于咱们使用了LLVM，最好使用LLVM中的clang。不然可能致使tvm生成的代码没法二次导入。见这个讨论帖：_cc.create_shared error while run tune_simple_template。

python包安装

demo

使用tvm为mxnet symbol计算图生成CUDA代码，并进行前向计算。

最后的话

我我的的观点，TVM是一个颇有意思的项目。在深度学习模型的优化和部署上作了不少探索，在官方放出的benchmark上表现仍是不错的。若是使用非GPU进行模型的部署，TVM值得一试。不过在GPU上，得益于Nvidia的CUDA生态，目前TensorRT仍然用起来更方便，综合性能更好。若是你和我同样，主要仍然在GPU上搞事情，能够密切关注TVM的发展，并尝试使用在本身的项目中，不过我以为仍是优先考虑TensorRT。~~另外一方面，TVM的代码实在是看不太懂啊。。。~~

想要更多

TVM paper：TVM: An Automated End-to-End Optimizing Compiler for Deep Learning
TVM 项目主页：TVM

后续TVM的介绍，不知道啥时候有时间再写。。。随缘吧。。。

如何评价陈天奇团队新开源的TVM？

陈天奇团队发布TVM：把深度学习部署到手机、树莓派等更多硬件

自动生成硬件优化内核：陈天奇等人发布深度学习编译器TVM

被浏览

101,159

12 个回答

、、、、等

从去年nnvm推出以后，很是感谢在zhihu和

上有一些讨论如何评价陈天奇的模块化深度学习系统NNVM？，关于nnvm剩下的瓶颈。这个讨论自己加上早期的nnvm编译尝试，让我意识到了能够支持快速调优底层op的重要性。在接下来的八个多月里面咱们不断迭代完成了TVM。

TVM尝试从更高的抽象层次上总结深度学习op的手工优化经验，用来使得用户能够快速地以自动或者半自动的方法探索高效的op实现空间。

TVM和已有的解决方案不一样，以XLA做为例子，TVM走了和目前的XLA比更加激进的技术路线，tvm能够用来使得实现XLA须要的功能更加容易：已有的解决方案自己基于高级图表示的规则变换，能够产生一些图级别的组合op优化，如conv-bn fusion，可是依然要依赖于手写规则来达到从图的表示到代码这一步。图的op表示到代码自己能够选择的东西太多，如何作线程，如何利用shared memory，而大部分没有在图语言里面获得刻画，致使难以自动化。这样下去深度学习系统的瓶颈必然从op实现的复杂度变成了实现graph compiler中模式生成规则的复杂度。走这个方向须要很是大的工程团队的支持，而咱们但愿采用更少的人力达到一样甚至更好的效果。

咱们采起了风险更大可是回报也更大的长远技术路线。简单地说，TVM经过把图到op生成规则这一步进一步抽象化，把生成规则自己分红各个操做原语，在须要的时候加以组合。基于tvm咱们能够快速地组合出不一样的schedule方案。

这个想法并不新颖，正如其它回答中提到的Halide，或者polyhedra method都是尝试去作这件事情。想法虽然美好，可是自动代码生成这条路线必需要生成代码效率到达手写的80%-90%效率以上，才会有实际使用的价值。一旦到达了80%到90%的效率以上，经过fusion，layout的一些高级联合优化就能够弥补这一个gap来获得比直接组合手写代码更好的效果。

可是这也正是这个问题最困难的地方，咱们须要能使得自动或者半自动生成的代码达到手写代码的效果。在TVM以前，已有的解决方案都尚未解决这个问题。我知道的最好的GPU自动生成代码大概能够到Cublas的50%的运行效率，而大部分的已有方案只是针对单线程cpu有比较好的效果。

固然已有的解决方案有很多值得参考的地方。好比polyhedra method自己很是精辟地把程序优化的大部分问题总结为针对整数集的分析。Halide里面的schedule和declaration分离的思想等。这些思想都很是强地影响了TVM的设计

这自己是一个颇有趣的科研问题，dmlc的的初衷就是去解决这样新的问题，发布新的解决方案。TVM在很大程度上解决了这个问题。要解决它，须要作到两点：设计足够大的schedule空间，使得它能够囊括包括cpu和gpu在内能够作到的手写优化，设计足够强大的搜索算法。以前的方法之因此没有图片，难点在于须要足够大的空间。

全部的抽象老是有缺陷的，因此死抱一个固定的抽象确定不能解决全部的问题。可是能够被写出来的手工优化基本上也是能够被抽象的。过去的几个月咱们就是沿着这样的思路，不断地去总结手工优化的经验加以抽象到TVM中。虽然咱们不敢保证TVM包含全部可能的手工优化，可是我基本上cover了我知识范围里面能够涉及到的东西（使得TVM至少比我知道的多）。随着TVM的演化，会有更多的这样的手工优化经验能够被加入进来。这也真是须要HPC机器学习和编译等各方面人才一块儿协力的结果。

到目前为止，咱们基本能够肯定TVM目前提供的schedule空间在cpu上能够作到90%，类似或者超过一些手写优化库效果的方案，在gpu上几本能够作到达到或者超过手写cuda的方案，可是和手写assembly在一些状况还有80%的差距（主要来源于gpu的寄存器分配比较困难）。TVM自己也意识到的手写优化的重要性，会在容许在各个级别混用手写优化的代码，来弥补剩下这一平衡。

这是一个很是激动的前沿课题，基于这个项目自己还会有很多有趣的研究方向，咱们在不少地方已经能够看到很是好的效果。因此咱们很是但愿对于机器学习，hpc，编译原理，硬件加速有兴趣的同窗一块儿加入进来，一块儿来推进这个项目。而由于咱们目前到达的效果自己，TVM已经能够被使用于实际的应用场景中了。

最后有一些细节上面的东西，TVM自己的设计中是很是注重开发效率和可扩展性。TVM直接提供了很是好用的python和真机调试框架，能够不依赖于上层框架直接基于python开发调试。这一点使得tvm在调试开发和效率迭代上面比起已有的方案有比较大的优点。将来咱们也会放出一些样例教程，让你们均可以开发高效的代码

将来会有自动图编译以及直接在python端定义customop

最近一直在研究TVM,感受跟 xla,ngraph,DLVM比，tvm在张量计算的实现和优化这一块作的更好，以前看论文感受TVM重点是支持多后端，可是今天你的回答感受又像是TVM重点在自动代码生成这一块，并且并无提出中间表示IR这一说，别的编译器xla/dlvm都有IR的设计理念，那tvm有一套 graph或者底层张量计算的IR的设计么？

编辑于 2017-08-21

、、、、等

目前 TVM 放出的资料还较少，周日学习了下代码，和你们交流分享，有疏漏烦请回复指出。

TVM 的应用场景，是跟 TensorFlow XLA 对标，提供将模型输出到不一样设备 native code 的能力。这里面有几个能够对标的组件：

TOPI (TVM Operator Inventory) 大约对应 XLA HLO, 描述在 DL 领域会用到的高层次 Operator 如 matmul, conv2d 等。这一层次能够作 CSE、Fusion 等优化。
Schedule + HalideIR + TVM IR 无对应
代码输出 TVM 使用 LLVM IR 和 Source Code, 对应 XLA 使用 LLVM IR.

这里面，TVM 的切入点是在 High Level 到 Low Level 中间，插入了 Schedule 层，大概流程是 NNVM -> TVM/TOPI -> TVM/Schedule -> TVM/HalideIR -> TVM IR -> LLVM IR 或 Source Code。中间 TVM Schedule 的主要思想来自于 Halide. 这里要简单介绍一下 Halide 这个为图像处理设计的语言。Halide 其特色是计算描述（algorithm）和计算过程（schedule）分离（http://people.csail.mit.edu/jrk/jrkthesis.pdf）。这么作是由于计算机体系结构的设计（缓存，SIMD 等），直接裸写算法不能得到最高性能（一个例子是三重循环裸写矩阵乘会很慢）。所以不一样的体系结构，对一个算法的计算过程也就不一样。分离算法定义和计算过程，则方便为不一样的体系结构制定不一样的 schedule, 进一步能够探索 schedule 的自动生成（Automatically Scheduling Halide Image Processing Pipelines）。更详细的介绍建议去 Halide 官网 Halide 学习。

当初看到 Halide 的时候，就在想这个想法在 DL 领域必定会有用，现在终于被 DMLC 推进进入了人们的视线。我对这个事情的见解是：

Halide 能够比较快的实现一个性能还不错的 kernel，开发效率很高，换不一样 schedule 测试方便。对比传统 kernel 实现通常是手写 C/C++ 或者汇编代码，开发效率较低。但任何抽象都不是完美的，有足够人力的状况下，传统写法必定能够得到不低于 Halide 的效率。
Halide 提供了 auto-tune 的可能，但目前也只是在学术界研究，离工业级生产还远。所以可预见的将来，咱们仍是要为不一样的 target 手写 schedule 的。

根据

介绍，TVM 相对 Halide 作的比较多的工做，主要的是去解决 schedule 空间包含手写优化的问题。具体内容移步 crowowrk 的回答。

TVM 的另外一个目的是，但愿经过 TOPI 这个 Operator 库，为全部兼容 dlpack 的深度学习框架提供 kernel 库，这个目标是十分欢迎的，具体效果还有待观察。

反过来看 TensorFlow 的 XLA，目前 XLA 还在快速开发中，有几点能够注意：

XLA 并不反对独立出来给其余框架用 XLA standalone
XLA 欢迎尝试各类 idea，目前有人在 Incorporate Polyhedral Compilation
XLA 目前不少 kernel 实现是基于 Eigen 的。某种程度上，Eigen 这种数学库也是 TOPI 的对标。

总的来讲，TVM 目标是很好的，很是支持。Soumith (PyTorch 主要做者）也在积极参与 TVM 项目并表示在接下来的几个月内会有更多关于 TVM/PyTorch 的消息 Twitter 。

edit: 跟做者交流更新了若干技术细节。

编辑于 2017-08-21

、等

最近阵容有点强大。

这周四咱们请了天奇来将门作线上直播，给你们亲自讲讲TVM。

天奇的直播首秀，就在本周四（16号）下午1点，将门创投斗鱼直播间！

欢迎你们呼朋引伴来给天奇打call！！

详情>>线上 | TVM发明人陈天奇: TVM-深度学习全栈自动优化和软硬件协同设计

编辑于 2018-08-14

最近在考虑将深度学习移植到移动端, 面对不少问题:

ios 11有coreml, ios10用metal, 更低版本须要手写低版本metal代码
neon指令集优化
安卓gpu
caffe,tensorflow,darknet等一堆框架,移植不便,并且没法一一优化.

瞌睡送枕头, 感受tvm就是答案.

github上关注了tianqi, 一直纳闷最近半年为啥没有提交代码, 难道上课太忙?

直到昨天...

忽然都亮起来了.

吐槽一句, mxnet号称是轻量级框架, 各类宏,lambda看的怀疑人生,nnvm竟然还能把torch弄过来用Orz. 后来看了caffe, 不少功能都用第三方库, 主体代码很清晰简单啊, 这才是轻量啊...

利益相关: dmlc脑残粉, tianqi脑残粉

编辑于 2017-08-19

估计Google最近应该也会发一个东西，MXNet和TensorFlow竞争好激烈。。。

编辑于 2017-08-19

你们还记得找不到工做的bhuztez么

他在去年在一位七岁小朋友的指导下预言，2017年出现的下一代深度学习框架后端会利用Polyhedral model作fusion，减小GPU内存带宽压力，提高运行速度。被某人下结论说“真心不会.. 合并带来的内存节省只是一次elementwise op的代价，比起卷积开销真是一个毛毛”

https://www.zhihu.com/question/48615510/answer/115592046

而如今的广告

“如今咱们看到了 TVM 构建了由循环转换工具好比 loopy、多面体分析启发的图优化”

“咱们经过自动融合运算符并使 TVM 生成融合的内核，在图形节点之间和之中应用优化”

bhuztez不如赶忙改行，事实证实他那点破烂水平，连名校博士头衔都没有，真心不适合写程序，我建议他仍是去卖煎饼果子吧：）

如何评价陈天奇的模块化深度学习系统NNVM？

介绍文章：MXNet专栏 | 陈天奇：NNVM打造模块化深度学习系统
项目地址：GitHub - dmlc/nnvm: Intermediate Computational Graph Representation for Deep Learning Systems

NNVM是否会成为深度学习时代的汇编语言，成为沟通底层计算设备（GPU、FPGA）与高层的计算图描述语言（Tensorflow、MXNet）的通用桥梁？

被浏览

51,424

7 个回答

、、等

北京时间 10 月 13 日 12:00 更新：
加个 Disclaimer: 本文仅表明我的观点，与雇主无关。

北京时间 10 月 4 日 1:40 更新：
看到做者

的回答，而且在评论中进行了简单交流。个人见解和做者的想法，都是认同 graph 定义和优化这一层的，区别是我认为这一层放在框架内部更方便开发，而 NNVM 想把这一层拿出来你们一块儿作大作强避免重复劳动。这个想法我是很是支持的，但最终是否好用仍是要看工程的发展和理论总结，尤为是在当前 NNVM 的实现还很是单薄的状况下。
我以前的回答，主要是在把 NNVM 跟 TF 内部的 graph 这层比对，并非为了分出高下，而只是在作技术上的比对，并表达个人一些想法。但愿你们不要有门派之争，理性讨论，共同促使技术进步。

=== 10 月 3 日答案原文以下 ===
tl;dr NNVM 的出现不在于技术上有多大突破（该有的 TF 都有），而在于意欲打造一个公共接口（虽然我并不认同）。当下推出的 TinyFlow, 也有一点集合社区力量对抗 Google 的 TensorFlow 的意思。无论怎么说，DL Framework 社区活跃，终归是一件好事，做为从业者很是感谢！

首先建议想作技术分析的同窗，都先看看 TensorFlow 的代码，虽然量很大，但核心都在core/framework 和 common_runtime core/distributed_runtime 几个目录下面，从 Session 一路分析进去，并不难懂。

nnvm 从 github 上看，是为了做为模块化 DL 系统中的计算图的一环。

NNVM offers one such part, it provides a generic way to do computation graph optimization such as memory reduction, device allocation and more while being agnostic to the operator interface definition and how operators are executed. NNVM is inspired by LLVM, aiming to be a high level intermediate representation library for neural nets and computation graphs generation and optimizations.

这些部分，在 TensorFlow 里面都有相对成熟的实现。
先说图表示，在 TensorFlow 里面有两种图，一种是用于接口的，基于 protobuf 表示的图 tensorflow/graph.proto，称之为 GraphDef。另外一种是 C++ 内部运行时用的图表示 tensorflow/graph.h，称之为 Graph. 而 Operator 的定义，TF 是经过一个在 C++ 里面实现的 DSL 作的 tensorflow/op.h 使用方法例如 tensorflow/math_ops.cc，这个在 NNVM 里面也采用了相似的形式。

以后作图的优化，在 C++ 层面有 tensorflow/graph_optimizer.h. 基于这个接口，目前也作了若干实现 tensorflow/graph_optimizer.cc 如常数折叠，公共表达式消除等。除此以外，在 Python 层面也有 graph_editor 用来作图的编辑。好比 Sublinear Memory 理论上用 GraphEditor 是能够作到的。

TF 的 Operator 和 Kernel 也是分开的，相同的 Operator 能够有 CPU/CUDA 等多种实现，OpenCL 也在进行中。往 TF 里面加 Operator 并不复杂 https://www.tensorflow.org/versions/r0.11/how_tos/adding_an_op/index.html.

因此先泼一瓢冷水：我粗略的扫了一下 NNVM 的代码，能够说目前 NNVM 的目标，在 TF 内部都有实现而且都有比较好的抽象隔离。从新造轮子，政治意义大于技术意义。
转载做者陈天奇的微博关于今天深度学习系统争论。目前的壁垒并不是... 来自陈天奇怪:

关于今天深度学习系统争论。目前的壁垒并不是使用哪个，而是系统内部高度耦合，使得改进或者从头fork打造系统的代价变高。经过模块化，去中心化来解决这些问题，防止垄断。当你们均可以经过组装组件几天从头打造MX, TF或者相似系统的时候。这些争论就不复存在了。

最近推出的 TinyFlow 号称是 2k 行的 TensorFlow，但其实看代码会发现，作到当面这个层面，即便彻底重写，代码成本也不算高。TinyFlow 目前（2016.10.3）的本质是一个 Python DSL 到 Lua 代码的转换器。而 TensorFlow 自己的结构并不复杂，难点在于无穷多 Operator 的实现，和当初分布式架构的设计。这两个实现出来，本质上都是工做量问题，这也是 TF 的 codebase 如此庞大的缘由。

NNVM 目前（2016.10.3）自身也不包括 Operator 的定义，这会致使使用 NNVM 的不一样框架本质上是没法互换的。而定义 Operator 这个工做量比较大，甚至不必定能完成（好比不一样 Framework 对 padding 的定义就不太同样），不知道 NNVM 是否有意愿往这个方向发展。

目前 DL 的领域还在高速发展，新的网络结构（好比 ResNet, GAN）、计算节点（各类神奇的 Operator）、计算方法（好比 lowbit, sublinear memory）、计算设备（好比 TPU，寒武纪）都在不断涌现。分布式架构也在不断演进。在这个时间点，我认为 monolithic 的框架重构相对方便，会有更加旺盛的生命力。而 NNVM 的理想，恐怕跟现实仍是有必定差距的。目前更有价值的，我以为并不在图表示层，而是各类 Operator 的 kernels. 每一个设备的 kernel 都须要专业人员定制，工做量大，难度高。cudnn 解决了 CUDA 设备上的大部分问题，但仍然有不少 Operator 须要本身实现。lowbit 目前也并无特别可用的实现。若是能有一个统一的库，定义每一个 Operator 在各类设备上的最优运行代码，应该对社区更有帮助。而上层的网络定义，和具体每一个图的运行调度方式（好比 MXNet 的 Dependency Engine，TensorFlow 的分布式框架和 rendezvous 设计），这些代码量不大，但更容易体现出差别化的部分，我想仍是留待每一个框架本身解决吧。

我的愚见，请各位参考。虽然我并不认同 NNVM 的目标，但依然对陈天奇先生对社区的贡献很是钦佩。各位如想评论，请至少大略了解 NNVM，TensorFlow 和 MXNet 的内部实现架构，以节省你们时间。

编辑于 2016-10-13

KaiJ2 年前

赞成。另外不知道“从头fork打造系统”的需求是哪儿来的，并且有了nnvm也并不容易从头打造系统，由于最麻烦的仍是opr。。并且跟llvm的情形不一样，PL的前端很是丰富并且差别巨大，而中间表示用上三地址码能够用不少现成的优化理论。但deep learning的前端基本就是graph的描述，并无太多接口之外的差别。而在不考虑opr具体特性状况下的中间表示能带来的优化有限，可能最有用的就是内存分配；像const folding目前看来在nnvm的框架里并很差作，由于须要知道opr的具体操做，须要定义好tensor结构，管理一些内存分配，这样nnvm就要膨胀成大半个dl框架了。如答主所述，真正加速还得看后面的kernel和硬件，这块门槛最高，价值最大，但如今社区里能看到的成果也是最少的。
王佳明回复KaiJ2 年前

赞成，dnn的优化须要各类kernal代码，如你所说，门槛最高，价值最大，目前都是cudnn包办，社区就一个nervana，成立两年就卖了几亿刀。在图结构上跳舞是舍本逐末。

刘知远2 年前

文笔很好呀！

渡河2 年前

膜拜大大！

某一个吃货2 年前

其实看最新mxnet的issue，整个mxnet将会在nnvm上进行重构。我以为良好的系统结构抽象和彻底的性能不可兼得。但并非说选择优秀的抽象就不如优秀的性能。整个mxnet在几位大牛（感受就五我的左右）的贡献下（和TF几十我的的团队相比），开发效率很是高，这也和优秀的抽象和思考是分不开的。

某一个吃货2 年前

其实我以为作这个的你们都明白框架之间的差别其实都并不大，核心就是分布式和Operator的支持程度。Google有着最优秀的研究和工程人才天然有优点。但我以为nnvm志不在此，并非为了和TF一较高下，而是一个开源社区下降入门contribution门槛的阶梯。其实当有一天nnvm(dmlc)社区成长的和keras同样以后，优秀架构的潜力就会慢慢显现，以前的那些问题也都不会是问题。
王健飞 (做者) 回复某一个吃货2 年前

在 TF 已经开源近一年的时间点上，正如我回答所说，NNVM 在架构上目前并无优点，更多的是政治意义。若是您对这方面技术有兴趣，欢迎您去阅读 TF，Caffe，MXNet 的代码，再作评论。

某一个吃货2 年前

我以为就像当年推出Java的时候，只是为了解决一个问题（跨平台）而不是为了解决全部的问题（性能啊语言特性啊），确定不会想到如今的用途。毕竟有一个重要的人生经验【一我的的命运啊，固然要靠自我奋斗，可是也要考虑到历史的行程】

谢流远2 年前

tf分布式效率那么差，架构设计并不能算优势吧

谢流远2 年前

kernel其实经常使用的性能瓶颈10个都不到，剩下的长尾优化意义不大并且永远不可能写完。若是你作的是novel research，那你用的op必然不可能有别人给你写好。

dzhwinter2 年前

反对一下，TF的抽象作的太多了，分布式设计易用性并很差，小operator组合致使效率差如今尚未解决。认同NNVM讲的三个story。

刘弈2 年前

飞机好厉害～虽然我看不懂 0.0

王雷2 年前

赞同楼上的反对，TF的抽象过多，设计质量和代码质量并不理想

时间的朋友1 年前

一个在科研界混的人以为NNVM更像一个科研项目，设计追求各类灵活，这在很大程度上确实可以促进社区的发展。但重口难调啊，设计无比灵活的东西针对特定需求，性能却不必定牛逼，在工程应用上各家有各家的独特需求和硬件条件，我的以为更须要针对需求的定制。

zhuao8 个月前

我是作系统多媒体框架的，对DL的东西不了解，看了陈天奇的回答，以为蛮有感触的。

Android上的多媒体框架就是一个渣。stagefright的player连google本身的应用都不使用；java层从新封装的exoplayer也并无为广大第三方应用所接受。由于他的思路就是面向特定的应用来构建实现，没有留给第三方开发者真正的定制化开发空间。好比你想在视频播放过程当中加一个额外的后处理实现图像加强，这不可以经过添加一个新的组件来简单的解决。从陈天奇的回复来看，TF也是相似的解决方案 -- 你想添加一个额外的处理环节，很难。而这是在作框架设计的时候须要慎重考虑的东西。

而参考其余的多媒体框架，像Linux的GStreamer，Windows的DShow；都是能够方便地作到上面的事情。也就是他们是真的面向pipeline的graph设计：每一个模块(算子，plugin）具备统一的直观的接口（而不是具象的每一个特定属性）；不一样的模块（算子）能够自动地完成链接和交互数据。内存的管理和数据的流动在框架的约束下交由模块自动完成。这样在搭建的新的场景的时候，就是垒积木，足够简单；在pipeline中添加和去除处理环节也能够经过几行代码来完成。

至于“相对干净的Op应该去推进成为一个独立的模块”，这个能够参考多媒体领域的ffmpeg。他就是focuse在具体的视频编解码和处理功能，而独立于不一样的多媒体框架（能够充分被Gstreamer，VLC，甚至stagefright所使用）

这种框架设计的思路，随着场景和工程的演进，能够表现出更多的优点。

写下你的评论...

、、等

以前讨论事后更加意识到了@王健飞所说的更好地支持更多平台的op调优的重要性。昨天咱们发布了dmlc/tvm 来解决这部分问题。

-------

在几个月以后给了几个关于NNVM的报告，也思考了它和已有系统的差异。追加一下这一页slide，是我对于在抽象成面上面各个系统差异的理解。

原回答

-------
我是NNVM的做者。

总结一下，技术上自己的NNVM和现有的东西的差异是最小模块化和去中心化，下降深度学习系统优化门槛。除了为了解决现有问题，更可能是为了将来考虑。

关因而否重复造轮子的问题，图表示和优化自己在MXNet就已经存在，楼上也提到TF也有对应的抽象，为何咱们须要从新写一遍呢，基本上也就是以上两点缘由。

基本上现有的深度学习系统分红两块，1) 基本的operator的实现, 2)支撑其中的系统调度，优化，解释或者编译架构。

在工程难点上，operator须要堆代码，可是对于工程架构的难度上面而言相对较低(也就是说能够写的人比较多一些)，可是须要堆比较大量的代码。而剩下的系统优化部分，内存，执行调度和分布式优化对于总体系统而言的难度相对高一些。Operator的集合问题虽然是一个问题，看已经有的成熟框架不管是Torch, Theano或者MXNet的operator完整程度基本上能够知足于大部分应用，也就是说这部分暂时属于已经解决或者能够经过堆积工程力量容易解决的问题。楼上说的最小化通用的 Op接口很重要，和NNVM咱们考虑的方向垂直。我以为相对干净的Op应该去推进成为一个独立的模块，而Op实现自己其实没有必要和框架耦合很深（虽然遗憾的是目前的设计暂时没有作到这一点）。

NNVM但愿解决的是垂直于operator实现的问题。有趣的是其实TF在这一暂时没有花特别多的力气，因此会让人以为operator是大头。其实这里有不少有趣的东西，在执行，调度和编译优化上面。编程模型和一个图自己的执行模式和硬件也会有更多的差别。

直接讨论一下设计，目前TF采起了单一的动态执行模式，使得自己执行特别依赖于动态内存分配以及threading。而这并不是是大部分场景下的最优方案。大部分场景下基于对于有限的图进行的静态分配，能够更大的缓解这个问题，实际状况如MX自己的内存损耗能够作的更好。为何目前TF不会出现多种执行模式呢，是由于TF自己Op的接口仍是过于通常地针对的动态，而若是要更好的优化须要更细化的Op接口（分开内存分配和计算的部分），这就考虑到一个Op甚至可能有多种接口的可能性。

NNVM自己的图的设计参考了TF，MX和caffe2的图部分。楼上的评论基本上提到了几个很是重要的概念，即系统优化和Op具体的性息相关。可是和PL不一样，咱们不能直接简单的抽象出有限个操做来表示整个程序。这个时候彷佛框架和Op会有比较强的关联性，致使比较大的耦合。可是也并不是如此，由于每个优化自己其实只依赖于Op的部分属性。好比有同窗提到的常数折叠，其实须要知道的是一个Op是不是常数，以及如何去展开常数两个函数。NNVM自己的作法是容许注册这两个额外属性来容许常数折叠优化。可是当不须要这个优化的时候，能够直接去掉这一部分。使得深度学习的优化能够插拔。如今看起来可能有些overkill，可是咱们相信将来深度学习系统在这方面会有很大的发展，容许不一样的优化来自于不一样群体和研究人员是咱们更加喜欢的方式。

基于以上缘由，NNVM容许给每一个op注册任意的信息。而且能够使得属性和注册和op的实现分开。这相对于TF的op接口而言是一个进步的地方。TF内部的全部op属性是须要提早数据结构指定的，也就是说，目前TF能够注册shape inference, op的输入参数的个数，可是没法注册好比咱们须要的新的细化Op接口，或者有些人关心的代码生成函数。若是须要加入这些特性，必需要修改Op的接口。这意味着全部的开发须要在一个中心，而且只能保留你们关心的东西。若是forkA有feature1, forkB有feature2的状况，forkB想要拿到 feature1就会比较不方便。由于NNVM容许不修改Op接口注册任意信息，相对解决了这个问题。

固然模块化和去中心化并不是对于全部人都重要，就是见仁见智把。

将来的深度学习系统会有更多系统的问题，使得优化和执行更加多样化。咱们不可以期待全部的优化都来自于一个团队，或者只应用于一个框架。更多的优化看起来会带来更多的耦合，可是也并不是如此。

发布TinyFlow缘由很简单。大部分人并无意识到其实目前深度学习的“系统”部分能够经过简单抽象获得。TinyFlow做为一个教程性质的项目，能够用比较短的代码展现目前有的大部分优化概念，而且把Op的部分代理给Torch（由于Op自己虽然重要，可是并不做为架构一部分）。若是能够有更多的同窗来关注深度学习系统优化，基本这个项目的目的就达到了。

值得认可的是，NNVM目前只是走出了第一步，只是包含了MXNet原有的一些优化，暂时内容很少，咱们会继续带来更多好玩的东西。咱们也会继续坚持模块化和去中心化的思想，使得咱们新的成果能够更好的用在各个平台里面

编辑于 2017-08-19

一枚作猎头的姑娘2 年前

固然模块化和去中心化并不是对于全部人都重要，就是见仁见智吧

强黄2 年前

为大家感到骄傲

王健飞2 年前

自定义 attributes 的部分不太理解。为了使用 nnvm 的不一样框架可以交互，必然仍是要规定一组 common attributes 的，这些 common attributes 可能跟其余框架内置固定的 attributes 并没有二致。
若是要某个框架要增长新的 attributes, 在不求通用性的前提下，能够不改 NNVM 只在本身先后端实现，但这跟在一个 monolithic 框架中增长一个新的 attributes, 彷佛代码量不相上下？

以及，支持自定义 attributes 只要支持一个 map 便可，我没有确认目前各个框架的实现，但即便目前不是 map, 在 Operator 定义中增长一个 map 支持任意 attributes 也不是难事吧？
陈天奇 (做者) 回复王健飞2 年前

没错，任意attr实现代码量很少。通用性，可拆除和去中心化，是咱们关心的东西。这里的意义在于基于NNVM的attr优化能够复用于各个先后端。若是全部的东西都是一个团队在一个框架里面实现，一样代码量没有多大差异。

只是在考虑通用性的时候会多一个心眼，有时候代码会比hack的干净一些。这是在从MXNet转化到NNVM的一个体会。

虽然复制老是可能的，你们都会作，可是仍是但愿能够有共同的抽象。就好象op和模型，也是同样的道理。

最后，其实咱们就是但愿用最小的代码完成最多的事情，而不是overdesign一个东西。虽然不必定造成技术壁垒，可是有利于增长新的好玩的东西进行高效开发
王健飞回复陈天奇 (做者) 2 年前

了解了。咱们并无本质的分歧，都认同 NNVM 这一层的意义。只是我以为这一层目前放到框架内部作开发起来比较快，而 NNVM 以为这一层拿出来复用会更有好处。本质上是作工程的口味问题，而不是技术的高下。另一点是，我我的以为目前 DL 系统开发的难点并不在 Graph 层，不过这个见仁见智，就很少讨论了。

在不打算定义通用 Op 的状况下，Attr 的设计应该是 NNVM 的关键，这个设计是对各类 Op 的本质的归纳，不知道我理解是否正确。这一点上，但愿有更加理论的成果出现。加油！

陈天奇 (做者) 2 年前

恩，个人理解是DL自己已经很难用枚举instruction set的方式来统一中间表示了。因此经过通用的Attr来统一。

如何根据各个优化的需求抽象出合适的Attr以及对应的优化的确是将来的关键。使用NNVM的设计基本上就是强迫咱们在将来系统演化中有更多这样的思考。

如今DL系统开发还有不少不肯定因素，相信不论你们角度如何，总会有更多好玩的东西出来的

lv-yafei2 年前

@crowowrk

在MxNet中，对于变长lstm和attention等网络，图的构建和销毁开销仍是比较大的，虽然nnvm优化了建图的时间，可是仍是没法作到能够被忽略不计，nnvm之后是否会提供相似于tensorflow的动态流图的构建。对于NLP等任务，动态流图可能没法作到显存最优，可是却能够避免反复构建图的开销。
陈天奇 (做者) 回复lv-yafei2 年前

将来考虑子图结构组合吧。这样子图能够避免反复拷贝构建

齐显东2 年前

如今出来了 Weld，能够对比一下吗？是相似的框架吗？

余风云1 年前

还觉得是寒武纪

ForAnyThing1 年前

人和人差距真大，如今留言还这么少，等你真的全民皆知的时候，至少我早点膜拜了大神。

仍是用化名10 个月前

同膜拜

写下你的评论...

NNVM Compiler: Open Compiler for AI Frameworks

盗一张文中图：

给我一种感受，nnvm牵起了pytorch，cntk，caffe2，caffe，keras（？）的小手，开始干xla。。（keras怎么哪都有你。。）

发布于 2017-10-07

charging1 年前

keras蛮好用的
罗若天 (做者) 回复charging1 年前

我相信的。
SLee回复罗若天 (做者) 1 年前

我是你的忠实粉丝。关注你好久了！看你的博客论文代码！life is shot us pytorch

bingo1 年前

不是中文图吗
罗若天 (做者) 回复bingo1 年前

上文中的图

sean zhuh1 年前

感受tf好高傲，自成一家不和咱们玩😂

写下你的评论...

就就像xen理论性能等比kvm优秀，可是redhat准备全力推kvm的时候，趋势开始转移到kvm，因此，长期的运营支持，精确高质量的实现都是一个平台的核心竞争力，并且DL平台对交叉专业领域的需求，加速硬件，系统架构，通讯架构，互联基础网络，分布式并行架构，等等都也很是重要。
例如一个高速网络架构下，一个关键内存未对齐的操做可能损失可观的总体性能，一个忽视的锁的设计也可能损失可观的性能，一个tcp超时参数的不合理可能损失乐观的性能，甚至一个硬件插槽的不合理也可能损失可观总体的性能，一个不合理的通讯算法架构等等。
一般，系统领域fine-grained的优化实现相当重要，这须要对平台的长期耕耘，也须要决策层面长期的支持，绝逼几个单纯的架构能解决的问题。
不多见到从distributed level将系统设计，大都仍是仍是based single node层面讲灵活性，期待有更多关于总体system层面讨论架构。

编辑于 2016-10-04

如何学习TVM的代码？

对陈天奇团队的开源深度学习编译器TVM很感兴趣，特别是看到18年发的论文中提到的在FPGA上的部署。对于基础知识薄弱（如体系架构编译等方面）的学生，应…

被浏览

18,089

委托刘看山邀请

开启后为你智能邀请潜在的回答者

回答过类似问题

最近回答过该领域问题

在「机器学习」话题下有 7 个回答

在「编译器」话题下得到过 101 个赞

2 个回答

、、等

或许和不少人不一样，以个人经验来看，以为理解TVM，或者推理框架必定要从前端开始。即你从一个Tensorflow模型 / MXNet模型等，是如何转为NNVM的，而后再应该是后续的图优化，以及后续的TVM Tensor，LLVM代码生成等东西。

为何我会这么强调从前端开始呢？由于不理解前端模型，就很难理解后续TVM为何是这样，并且出了错之后很难知道究竟是什么缘由，好比不少时候找了半天，其实只是你忘记了模型输入图片的预处理，却误认为是后续卷积的调度优化作的有问题，因此我强烈建议先从一个模型前端开始，在tvm/nnvm/frontend里面选取一个前端。而选取前端开始不该该仅仅是看，Bug / 需求驱动永远是最好学习源代码的方式，建议从一个固化好的模型开始，而后补足NNVM算子，好比Mobilenet / Resnet50等，这里也是让你熟悉工具，熟悉NNVM的开始，可能会遇到不少问题，可是一个一个克服会收获不少，这里面推荐一个看模型的好工具: https://github.com/lutzroeder/Netron 我也是看苹果公司一我的用了之后发现的，确实是好东西。

接下来你应该首先理解TOPI，这是架设在NNVM与TVM之间的东西(首先忽略图优化，你后面再去看)，由于你须要理解NNVM Symbol (其它模型在转为NNVM前端表示时会以Symbol形式的Api表示) 如何与TVM之间是如何链接起来的，在这里面你会有点迷糊，由于TVM是C++和Python混合的工程，这里面你须要在这二者跳来跳去，可是你这一步你最重要的是抓住两个核心: FTVMCompute (@reg.register_compute) / @reg.register_schedule，这一个你须要分别在nnvm/top里面的C++ / Python去找，top里面会告诉你是如何从NNVM进入topi的。

这一步完成之后，你则须要进入topi里面的任意一个后端Target去看，我暂时推荐x86后端，由于这一个后端尚未被AutoTVM改造。对于你来讲，理解起来更容易。在这里你会遇到topi/nn里面的@tvm.target.generic_func到相似具体@generic.schedule_conv2d_nchw.register(["cpu"])的改变，这是TVM的核心所在，对于卷积这样的数据负载处理，为了优化而沿用Halide的思想: 计算与调度分离。为了理解这个，你最好参考一下这个文档: https://docs.tvm.ai/tutorials/optimize/opt_gemm.html#sphx-glr-tutorials-optimize-opt-gemm-py

到这一步理解好之后，后续的TVM底层API大部分状况下你都不须要去动，包括后续的LLVM自动生成，优化等你也大部分不须要去动，由于相似CNN这样的网络，大部分你要作的工做就是在调度上，如何减小Cache Miss ，如何更好的让数据Locality是更关键的地方。

到这一步之后，你能够再回过头去理解图优化的部分，如Operator Fusion / FoldScaleAxis等，以及包括TVM目前最核心最不同凡响的地方: AutoTVM(https://docs.tvm.ai/tutorials/autotvm/tune_nnvm_arm.html#sphx-glr-tutorials-autotvm-tune-nnvm-arm-py)，这是TVM去击败NCNN等用手写汇编的推理框架的关键一环，用机器学习去解决机器学习的问题，让你从调度参数的设置中解放出来，而专心写调度算法。这里面目前ARM CPU的调度算法并不是是最优的，可是从测试来看，至少在测试中使用硬件和环境来看，已经超过能找到的推理框架。后续我将撰写一篇文章到TVM社区，将我在ARM CPU的工做写出来，这将改善目前ARM CPU的官方调度版本，这将在Mobilenet等模型中有很好的提高，敬请关注！

TVM是很好的一个项目，这种基于编译优化思想的深度学习推理框架正是我赞同的，虽然还有不少工做须要作，可是我认为它已经走在一个很好的方向上了。

编辑于 2018-10-08

Rand Xie10 个月前

感谢蓝色大大.

乔枫惜10 个月前

以前也看到了阿里发的使用TVM优化batch matmul的blog，请问后面您那边是会有大规模的部署优化计划吗？
蓝色 (做者) 回复乔枫惜10 个月前

他们是另一个团队，咱们目前仍是更强调在嵌入式设备上作端上推理的性能
乔枫惜回复蓝色 (做者) 10 个月前

很是感谢，很期待您的文章，但愿发布的时候能在知乎上也宣传一下让咱们知晓。

WhySmalltalk10 个月前

至少在测试中使用硬件和环境来看，已经超过能找到的推理框架。。谦虚点。。。
蓝色 (做者) 回复WhySmalltalk10 个月前

很谦虚了，至少在咱们的测试环境是如此。
蓝色 (做者) 回复WhySmalltalk10 个月前

看你公司是ARM吧，实话，ARM-NN很弱。

cyoung9 个月前

蓝大，这种混合工程用什么工具看源代码比较方便？好比用clion,除了c++代码，其余都是文本形式展现，很差看
蓝色 (做者) 回复cyoung9 个月前

CLion能够的，装一个Python插件就能够了。我用的是QtCreator + PyCharm

轻舟6 个月前

请教蓝大，在看x86后端，遇到一个警告：
WARNING:autotvm:Cannot find config for target=llvm, workload=('dense', (1, 512, 'float32'), (1000, 512, 'float32'), (1000, 'float32')). A fallback configuration is used, which may bring great performance regression.
问题出在哪里？应该怎么去调优？谢谢指教！
蓝色 (做者) 回复轻舟6 个月前

这是Auto Tuning的警告，你能够本身Tuning, 你这里是dense op，Tuning能够参考卷积的作法 https://docs.tvm.ai/tutorials/autotvm/tune_nnvm_x86.html#sphx-glr-tutorials-autotvm-tune-nnvm-x86-py来Tuning dense.

Ahuier3 个月前

有一个问题今天没看明白，像batchnorn算子，我在源码看不到它的具体实现，卷积就能够看到，这是为何呢？是被优化掉了，仍是怎么回事，我想添加本身的算子
蓝色 (做者) 回复Ahuier3 个月前

SimplifyInference优化掉了，变为了scale * data + shift

30382 个月前

您好！有个问题请教一下。我这边打算使用TVM部署到手机，auto tuning之后发现计算速度反而变慢。若是不通过auto Tuning的话，性能和ncnn此类相比，会差很大吗？
蓝色 (做者) 回复30382 个月前

Auto Tuning不该该变慢，你能够再确认一下是否是哪里出了问题。不通过Auto Tuning，在arm cpu上会跑fallback，性能很差说
3038回复蓝色 (做者) 2 个月前

谢谢，我按照您的意见确认一下

一步一步解读神经网络编译器TVM(一)——一个简单的例子

Oldpan 2019年3月12日 17条评论 4,953次阅读 8人点赞

前言

这是一个TVM教程系列，计划从TVM的使用说明，再到TVM的内部源码，为你们大体解析一下TVM的基本工做原理。由于TVM的中文资料比较少，也但愿贡献一下本身的力量，若有描述方面的错误，请及时指出。

那啥是TVM？

简单来讲，TVM能够称为许多工具集的集合，其中这些工具能够组合起来使用，来实现咱们的一些神经网络的加速和部署功能。这也是为何叫作TVM Stack了。TVM的使用途径很广，几乎能够支持市面上大部分的神经网络权重框架(ONNX、TF、Caffe2等)，也几乎能够部署在任何的平台，例如Windows、Linux、Mac、ARM等等。

如下面一张图来形容一下，这张图来源于(https://tvm.ai/about)：

乍看这么多感受很是地复杂，但咱们只须要知道TVM的核心功能就能够：TVM能够优化的训练好的模型，并将你的模型打包好，而后你能够将这个优化好的模型放在任何平台去运行，能够说是与落地应用息息相关。

TVM包含的东西和知识概念都有不少，不只有神经网络优化量化op融合等一系列步骤，还有其余更多细节技术的支持(Halide、LLVM)，从而使TVM拥有很强大的功能…好了废话不说了，再说就憋不出来了，若是想多了解TVM的能够在知乎上直接搜索TVM关键字，那些大佬有不少关于TVM的介绍文章，你们能够去看看。

其实作模型优化这一步骤的库已经出现不少了，不管是Nvidia自家的TensorRT仍是Pytorch自家的torch.jit模块，都在作一些模型优化的工做，这里就很少说了，感兴趣的能够看看如下文章：

利用Pytorch的C++前端(libtorch)读取预训练权重并进行预测
 利用TensorRT实现神经网络提速(读取ONNX模型并运行)
利用TensorRT对深度学习进行加速

开始使用

说到这里了，感受有必要说下：咱们为何要使用TVM？

若是你想将你的训练模型移植到Window端、ARM端(树莓派、其余一系列使用该内核的板卡)或者其余的一些平台，利用其中的CPU或者GPU来运行，而且但愿能够经过优化模型来使模型在该平台运算的速度更快(这里与模型自己的算法设计无关)，实现落地应用研究，那么TVM就是你的不二之选。另外TVM源码是由C++和Pythoh共同搭建，阅读相关源码也有利于咱们程序编写方面的提高。

安装

安装其实没什么多说的，官方的例子说明的很详细。你们移步到那里按照官方的步骤一步一步来便可。

不过有两点须要注意下：

建议安装LLVM，虽然LLVM对于TVM是可选项，可是若是咱们想要部署到CPU端，那么llvm几乎是必须的
由于TVM是python和C++一块儿的工程，python能够说是C++的前端，安装官方教程编译好C++端后，这里建议选择官方中的Method 1来进行python端的设置，这样咱们就能够随意修改源代码，再从新编译，而Python端就不须要进行任何修改就能够直接使用了。

(官方建议使用Method 1)

利用Pytorch导出Onnx模型

说了这么多，演示一个例子才能更好地理解TVM究竟是作什么的，因此咱们这里以一个简单的例子来演示一下TVM是怎么使用的。

首先咱们要作的是，获得一个已经训练好的模型，这里我选择这个github仓库中的mobilenet-v2，model代码和在ImageNet上训练好的权重都已经提供。好，咱们将github中的模型代码移植到本地，而后调用并加载已经训练好的权重：

import torch
import time from models.MobileNetv2 import mobilenetv2 model = mobilenetv2(pretrained=True) example = torch.rand(1, 3, 224, 224) # 假想输入 with torch.no_grad(): model.eval() since = time.time() for i in range(10000): model(example) time_elapsed = time.time() - since print('Time elapsed is {:.0f}m {:.0f}s'. format(time_elapsed // 60, time_elapsed % 60)) # 打印出来时间

这里咱们加载训练好的模型权重，并设定了输入，在python端连续运行了10000次，这里咱们所花的时间为：6m2s。

而后咱们将Pytorch模型导出为ONNX模型：

import torch
from models.MobileNetv2 import mobilenetv2 model = mobilenetv2(pretrained=True) example = torch.rand(1, 3, 224, 224) # 假想输入 torch_out = torch.onnx.export(model, example, "mobilenetv2.onnx", verbose=True, export_params=True # 带参数输出 )

这样咱们就获得了mobilenetv2.onnx这个onnx格式的模型权重。注意这里咱们要带参数输出，由于咱们以后要直接读取ONNX模型进行预测。

导出来以后，建议使用Netron来查看咱们模型的结构，能够看到这个模型由Pytorch-1.0.1导出，共有152个op，以及输入id和输入格式等等信息，咱们能够拖动鼠标查看到更详细的信息:

好了，至此咱们的mobilenet-v2模型已经顺利导出了。

利用TVM读取并预测ONNX模型

在咱们成功编译而且能够在Python端正常引用TVM后，咱们首先导入咱们的onnx格式的模型。这里咱们准备了一张飞机的图像：

这个图像在ImageNet分类中属于404: 'airliner'，也就是航空客机。

下面咱们将利用TVM部署onnx模型并对这张图像进行预测。

import onnx
import time import tvm import numpy as np import tvm.relay as relay from PIL import Image onnx_model = onnx.load('mobilenetv2.onnx') # 导入模型 mean = [123., 117., 104.] # 在ImageNet上训练数据集的mean和std std = [58.395, 57.12, 57.375] def transform_image(image): # 定义转化函数，将PIL格式的图像转化为格式维度的numpy格式数组 image = image - np.array(mean) image /= np.array(std) image = np.array(image).transpose((2, 0, 1)) image = image[np.newaxis, :].astype('float32') return image img = Image.open('../datasets/images/plane.jpg').resize((224, 224)) # 这里咱们将图像resize为特定大小 x = transform_image(img)

这样咱们获得的x为[1,3,224,224]维度的ndarray。这个符合NCHW格式标准，也是咱们通用的张量格式。

接下来咱们设置目标端口llvm，也就是部署到CPU端，而这里咱们使用的是TVM中的Relay IR，这个IR简单来讲就是能够读取咱们的模型并按照模型的顺序搭建出一个能够执行的计算图出来，固然，咱们能够对这个计算图进行一系列优化。(如今TVM主推Relay而不是NNVM，Relay能够称为二代NNVM)。

target = 'llvm' input_name = '0' # 注意这里为以前导出onnx模型中的模型的输入id，这里为0 shape_dict = {input_name: x.shape} # 利用Relay中的onnx前端读取咱们导出的onnx模型 sym, params = relay.frontend.from_onnx(onnx_model, shape_dict)

上述代码中导出的sym和params是咱们接下来要使用的核心的东西，其中params就是导出模型中的权重信息，在python中用dic表示：

而sym就是表示计算图结构的功能函数，这个函数中包含了计算图的流动过程，以及一些计算中须要的各类参数信息，Relay IR以后对网络进行优化就是主要对这个sym进行优化的过程：

fn (%v0: Tensor[(1, 3, 224, 224), float32], %v1: Tensor[(32, 3, 3, 3), float32], %v2: Tensor[(32,), float32], %v3: Tensor[(32,), float32], %v4: Tensor[(32,), float32], %v5: Tensor[(32,), float32], ... %v307: Tensor[(1280, 320, 1, 1), float32], %v308: Tensor[(1280,), float32], %v309: Tensor[(1280,), float32], %v310: Tensor[(1280,), float32], %v311: Tensor[(1280,), float32], %v313: Tensor[(1000, 1280), float32], %v314: Tensor[(1000,), float32]) { %0 = nn.conv2d(%v0, %v1, strides=[2, 2], padding=[1, 1], kernel_size=[3, 3]) %1 = nn.batch_norm(%0, %v2, %v3, %v4, %v5, epsilon=1e-05) %2 = %1.0 %3 = clip(%2, a_min=0, a_max=6) %4 = nn.conv2d(%3, %v7, padding=[1, 1], groups=32, kernel_size=[3, 3]) ... %200 = clip(%199, a_min=0, a_max=6) %201 = mean(%200, axis=[3]) %202 = mean(%201, axis=[2]) %203 = nn.batch_flatten(%202) %204 = multiply(1f, %203) %205 = nn.dense(%204, %v313, units=1000) %206 = multiply(1f, %v314) %207 = nn.bias_add(%205, %206) %207 }

好了，接下来咱们须要对这个计算图模型进行优化，这里咱们选择优化的等级为3：

with relay.build_config(opt_level=3): intrp = relay.build_module.create_executor('graph', sym, tvm.cpu(0), target) dtype = 'float32' func = intrp.evaluate(sym)

最后咱们获得能够直接运行的func。

其中优化的等级分这几种：

OPT_PASS_LEVEL = { "SimplifyInference": 0, "OpFusion": 1, "FoldConstant": 2, "CombineParallelConv2D": 3, "FoldScaleAxis": 3, "AlterOpLayout": 3, "CanonicalizeOps": 3, }

最后，咱们将以前已经转化格式后的图像x数组和模型的参数输入到这个func中，而且返回这个输出数组中的最大值

output = func(tvm.nd.array(x.astype(dtype)), **params).asnumpy() print(output.argmax())

这里咱们获得的输出为404，与前文描述图像在ImageNet中的分类标记一致，说明咱们的TVM正确读取onnx模型并将其应用于预测阶段。

咱们另外单独测试一下模型优化后运行的速度和以前直接利用pytorch运行速度之间比较一下，能够发现最后的运行时间为：3m20s，相较以前的6m2s快了将近一倍。

since = time.time() for i in range(10000): output = func(tvm.nd.array(x.astype(dtype)), **params).asnumpy() time_elapsed = time.time() - since print('Time elapsed is {:.0f}m {:.0f}s'. format(time_elapsed // 60, time_elapsed % 60)) # 打印出来时间

固然，这个比较并非很规范，不过咱们能够大概分析出TVM的一些可用之处了。

后记

这一篇仅仅是带你们了解一下什么是TVM以及一个简单例子的使用，在接下来的文章中会涉及到部分TVM设计结构和源码的解析。可能涉及到的知识点有：

简单编译器原理
C++特殊语法以及模板元编程
神经网络模型优化过程
代码部署

等等，随时可能会进行变化。

人工智能已经开始进入嵌入式时代，各式各样的AI芯片即将初始，将复杂的网络模型运行在廉价低功耗的板子上可能也再也不是高不可攀的幻想，不知道将来会是怎么样，但TVM这个框架已经开始走了一小步。

陈天奇等人提出TVM：深度学习自动优化代码生成器

机器之心 · 2018-02-18

此处@各类工程师

编者按：本文来自公众号机器之心（ID：AI_era），做者陈天奇等，机器之心编译，参与者李泽南、路雪。

TVM 是由华盛顿大学在读博士陈天奇等人提出的深度学习自动代码生成方法，去年 8 月机器之心曾对其进行过简要介绍。该技术能自动为大多数计算硬件生成可部署优化代码，其性能可与当前最优的供应商提供的优化计算库相比，且能够适应新型专用加速器后端。近日，这项研究的论文《TVM: End-to-End Optimization Stack for Deep Learning》终于完成，内容包含新方法的介绍与讨论，以及 TVM 在英伟达、AMD 的 GPU、树莓派及一些 FPGA 上的性能评估。

（项目连接：https://github.com/dmlc/tvm）

深度学习模型能够识别图像、处理天然语言，以及在部分具备挑战性的策略游戏中击败人类。在其技术发展的过程当中，现代硬件稳步推动的计算能力扮演了不可或缺的做用。不少目前最为流行的深度学习框架，如 TensorFlow、MXNet、Caffe 和 PyTorch，支持在有限类型的服务器级 GPU 设备上得到加速，这种支持依赖于高度特化、供应商特定的 GPU 库。然而，专用深度学习加速器的种类愈来愈多，这意味着现代编译器与框架愈来愈难以覆盖全部的硬件。

显而易见，以现有的点到点方式实现不一样深度学习框架对全部种类的硬件进行后端支持是不现实的。咱们的最终目标是让深度学习负载能够轻松部署到全部硬件种类中，其中不只包括 GPU、FPGA 和 ASIC（如谷歌 TPU），也包括嵌入式设备，这些硬件的内存组织与计算能力存在着显著的差别（如图 1 所示）。考虑到这种需求的复杂性，开发一种可以将深度学习高级程序下降为适应任何硬件后端的低级优化代码的优化框架是最好的方法。

目前的深度学习框架依赖于计算图的中间表示来实现优化，如自动微分和动态内存管理 [3,7,4]。然而，图级别的优化一般过于高级，没法有效处理硬件后端算子级别的转换。另外一方面，目前深度学习框架的算子级别库一般过于僵化，难以轻松移植到不一样硬件设备上。为了解决这些问题，咱们须要一个可实现从计算图到算子级别的优化，为各类硬件后端带来强大性能的编译器框架。

图 1：CPU、GPU 与类 TPU 加速器须要不一样的片上存储架构和计算基元。在生成优化代码时咱们必须考虑这一问题。

图 2：TVM 堆栈图。目前的堆栈支持多种深度学习框架以及主流 CPU、GPU 以及专用深度学习加速器。

优化的四大基本挑战

深度学习的优化编译器须要同时展现高级别与低级别的优化，在论文中，研究人员总结了在计算图级别与张量算子级别上的四大基本挑战：

高级数据流复写：不一样的硬件设备可能具备大相径庭的内存层次结构，所以，融合算子与优化数据布局的策略对于优化内存访问相当重要。
跨线程内存复用：现代 GPU 与专用加速器的内存可被多个计算核心共享，传统的无共享嵌套并行模式已再也不是最优方法。为优化内核，在共享内存负载上的线程合做颇有必要。
张量计算内部函数：最新的硬件带来了超越向量运算的新指令集，如 TPU 中的 GEMM 算子和英伟达 Volta 架构中的 Tensor Core。所以在调度过程当中，咱们必须将计算分解为张量算术内部函数，而非标量或向量代码。
延迟隐藏（Latency Hiding）：尽管在现代 CPU 与 GPU 上，同时拥有多线程和自动缓存管理的传统架构隐藏了延迟问题，但专用的加速器设计一般使用精简控制与分流，这为编译器堆栈的调度带来了复杂性。因此，调度仍需仔细，以隐藏内存访问延迟。

TVM：一个端到端优化堆栈（见图 2），该端到端优化编译器堆栈可下降和调整深度学习工做负载，以适应多种硬件后端。TVM 的设计目的是分离算法描述、调度和硬件接口。该原则受到 Halide [22] 的计算／调度分离思想的启发，并且经过将调度与目标硬件内部函数分开而进行了扩展。这一额外分离使支持新型专用加速器及其对应新型内部函数成为可能。TVM 具有两个优化层：计算图优化层，用于解决第一个调度挑战；具有新型调度基元的张量优化层，以解决剩余的三个挑战。经过结合这两种优化层，TVM 从大部分深度学习框架中获取模型描述，执行高级和低级优化，生成特定硬件的后端优化代码，如树莓派、GPU 和基于 FPGA 的专用加速器。该论文作出了如下贡献：

咱们构建了一个端到端的编译优化堆栈，容许将高级框架（如 Caffe、MXNet、PyTorch、Caffe二、CNTK）专用的深度学习工做负载部署到多种硬件后端上（包括 CPU、GPU 和基于 FPGA 的加速器）。
咱们发现了提供深度学习工做负载在不一样硬件后端中的性能可移植性的主要优化挑战，并引入新型调度基元（schedule primitive）以利用跨线程内存重用、新型硬件内部函数和延迟隐藏。
咱们在基于 FPGA 的通用加速器上对 TVM 进行评估，以提供关于如何最优适应专用加速器的具体案例。

咱们的编译器可生成可部署代码，其性能可与当前最优的特定供应商库相比，且可适应新型专用加速器后端。

图 3：两层卷积神经网络的计算图示例。图中每一个节点表示一次运算，它消耗一或多个张量，并生成一或多个张量。张量运算能够经过属性进行参数化，以配置其行为（如 padding 或 stride）。

论文：TVM: End-to-End Optimization Stack for Deep Learning

论文连接：https://arxiv.org/abs/1802.04799

论文摘要：可扩展框架，如 TensorFlow、MXNet、Caffe 和 PyTorch 是目前深度学习领域中最流行和易用的框架。可是，这些框架只对窄范围的服务器级 GPU 进行优化，要把工做负载部署到其余平台，如手机、嵌入式设备和专用加速器（如 FPGA、ASIC），则须要大量手动工做。咱们提出了 TVM，一个端到端的优化堆栈，具有图形级和算子级的优化，觉得多种硬件后端提供深度学习工做负载的性能可移植性。咱们讨论了 TVM 所解决的深度学习优化挑战：高级算子融合（operator fusion）、多线程低级内存重用、任意硬件基元的映射，以及内存延迟隐藏。实验结果证实 TVM 在多个硬件后端中的性能可与适应低功耗 CPU 和服务器级 GPU 的当前最优库相比。咱们还经过针对基于 FPGA 的通用深度学习加速器的实验，展现了 TVM 对新型硬件加速器的适应能力。该编译器基础架构已开源。

TVM之神经网络Auto-Tuning

BLOG ABOUT CATEGORIES LINKS TAGS RSS

TensorRT是什么，TensorRT是英伟达公司出品的高性能的推断C++库，专门应用于边缘设备的推断，TensorRT能够将咱们训练好的模型分解再进行融合，融合后的模型具备高度的集合度。例如卷积层和激活层进行融合后，计算速度能够就进行提高。固然，TensorRT远远不止这个：

咱们平时所见到了深度学习落地技术：模型量化、动态内存优化以及其余的一些优化技术TensorRT都已经有实现，更主要的，其推断代码是直接利用cuda语言在显卡上运行的，全部的代码库仅仅包括C++和cuda，固然也有python的包装,咱们在利用这个优化库运行咱们训练好的代码后，运行速度和所占内存的大小都会大大缩减。

其实相似TensorRT具体工做的有不少，例如TVM、TC(Tensor Comprehensions)，都作了一些相似于TensorRT的工做，将训练好的模型转化为运行在特定端(例如GPU)的进行模型优化等一系列操做后的代码，从而达到快速预测的效果。

那么为何要选择TensorRT呢？很简单，由于咱们目前主要使用的仍是Nvidia的计算设备，在Nvidia端的话确定要用Nvidia亲儿子了

在我这里的实验结论代表，在FP32的精度下，使用TensorRT和不使用TensorRT在GPU上运行的速度比大概为3:1，也就是在我这个模型为前提条件下，TensorRT在GPU端使个人模型速度提高了3倍(不一样模型不一样显卡不一样构架提高速度不一样)。

TensorRT具有的功能

目前TensorRT的最新版本是5.0,TensorRT的发展其实已经有一段时间了,支持转化的模型也有caffe、tensorflow和ONNX了，咱们要知道，TensorRT是有本身的模型框架的，咱们首先先其余训练好的框架经过转化代码转化为TensorRT的代码才能够使用。TensorRT对Caffe模型的支持度最高，同时也支持将Caffe模型转化为int8精度。

而ONNX模型的转化则是近半年来的实现成果，目前支持了大部分的运算(通过测试，咱们日常使用的90%的模型均可以使用ONNX-TensorRT来进行转化)。惟一遗憾的是ONNX模型目前还不支持int8类型的转化。

TVM：

Hello TVM

背景介绍

编译

准备代码

config文件

编译

python包安装

demo

最后的话

想要更多

如何评价陈天奇团队新开源的TVM？

12 个回答

如何评价陈天奇的模块化深度学习系统NNVM？

7 个回答

15 条评论

12 条评论

7 条评论

如何学习TVM的代码？

你能够邀请下面用户，快速得到回答

委托刘看山邀请

2 个回答

19 条评论

一步一步解读神经网络编译器TVM(一)——一个简单的例子

前言

开始使用

安装

利用Pytorch导出Onnx模型

利用TVM读取并预测ONNX模型

后记

陈天奇等人提出TVM：深度学习自动优化代码生成器

TVM之神经网络Auto-Tuning