TVM 学习教程

OpenVINO 是intel针对intel的各硬件（CPU、Moviduis等）在 deployment 环节（inference）进行的性能优化的软件；html

TensorRT 是NVIDIA针对NVIDIA GPU在 deployment 环节（inference）进行的性能优化的软件；前端

deployment 指的是如何将深度学习的模型跑在各类硬件平台上。git

TVM 出现的动机：由于深度学习中ASIC芯片的设计并非难事，但因为深度学习中新硬件的出现，如TPU、NPU等，须要重写这些芯片的上层整个软件栈，好比指令性、主流的深度学习框架等，这是繁琐复杂的工程。github

TVM Stack Goal：针对各类CPU、GPU和ASIC等深度学习加速器，开发全栈的深度学习编译器（从硬件到最终的软件框架）。性能优化

上层用户的视角：TVM frontend 前端拿到不一样框架的模型后，经过 TVM 编译器编译出 TVM 的模型，而后就能跑在不一样的设备上。框架

为何这是一件难事：（1）须要与手动优化库进行竞争，TVM 采用的方案是自动优化的方法要比手动的还好（2）须要有前沿的全栈的优化研究 TensorFlow中的XLA主要是对TPU进行的优化，因此通常在GPU上是拼不过cuDNN的。 JITfrontend

TVM Overview 综述

（1）High-level optimization：Computational Graph Optimization，包括 operater fusion（layer fusion、tensor fusion）、memory plan、data layout transform (nchw/nhwc等哪一种是最优)等，但图优化须要针对每一种硬件、不一样的data layout、不一样的数据精度、线程模型等都进行优化操做，但这是至关繁琐的事，因此出现了第二层和第三层。机器学习

（2）Tensor Expression Language：主要作的事是描述tensor的计算，使得计算可使用特殊的操做，好比AVX、TPU指令等。解决不一样硬件的差别。ide

（3）Schedule Optimization Space：整理和总结目前全部的手动优化方案，并放入这个能够供 TVM 进行调度的优化库中。解决data layout、数据精度、线程模型等问题。因此这个搜索空间就包括了全部的手动优化方案，但这个方案的体量是很庞大的，如 1 billion。如何在这个庞大的优化库中搜索到最优的实现，就出现了第四层。为何机器优化的方法会比人手动优化的更快？由于机器能够尝试全部的优化方案，而人的优化时间是有限的，不能尝试不少的优化方法。post

（4）AutoTVM，Optimize Tensor Operators using Learning：最大的问题是不可能将庞大的优化方法都试一遍，因此经过机器学习的方式，一开始须要将你的模型放在目标设备上进行测试跑分，而后经过优化空间中不一样的优化方法对这个模型进行优化后，再次在设备上跑分，获得了优化方法与优化结果的数据，并由此创建一个cost model，用于评估优化方法与优化结果之间的关系，因此最终能够从这个模型中获得最优的优化方法。目前能够查看 AutoTVM API 获得 TVM 的优化方法。最后是模型针对的硬件，如何集成入TVM？ TVM RPC：经过远程调用的方式，将你的模型部署到远程目标板或集群上，进行远程调试，如手机。

（5）VTA：开源的硬件加速器栈，包括VTA JIT runtime（实时生成的指令能与进行TVM通讯）、VTA ISA、VTA Micro-Architecture以及各硬件，如FPGA等。查看 tvm 的 discusss 和 roadmap

当前的TVM只支持inference，在今天2019年9月以后会加入training的相关。

TVM Overview 综述

Step 1：TVM 视频介绍

Step 2：研读 TVM 论文

Step 3：了解 TVM 官网中能够学习的资料

Step 4：上手 TVM Code

Step 5：TVM 其余相关资料