TVM调试指南

时间 2019-11-21

标签 tvm 调试指南繁體版

原文原文链接

1. TVM安装

这部分以前就写过，为了方便，这里再复制一遍。python

首先下载代码git

git clone --recursive https://github.com/dmlc/tvmgithub

这个地方最好使用--recursive选项，否则会缺dlpack这些库，缘由是bash

子模组 'HalideIR' (https://github.com/dmlc/HalideIR) 未对路径 '3rdparty/HalideIR' 注册
子模组 'dlpack' (https://github.com/dmlc/dlpack) 未对路径 '3rdparty/dlpack' 注册
子模组 'dmlc-core' (https://github.com/dmlc/dmlc-core) 未对路径 '3rdparty/dmlc-core' 注册
子模组 '3rdparty/rang' (https://github.com/agauniyal/rang) 未对路径 '3rdparty/rang' 注册服务器

sudo apt-get updatedom

sudo apt-get install -y python python-dev python-setuptools gcc libtinfo-dev zlib1g-devide

建立要编译生成so的文件夹（该文件夹位于tvm源码目录下，与src同级）函数

mkdir build工具

拷贝一份官方的cmake文件进行（测试时先使用官方的，以后这个config.camke文件咱们要进行修改以支持更多的设备）测试

cp cmake/config.cmake build

修改该文件，这里咱们的服务器上支持CUDA和LLVM的环境，所以将这两个配置打开

set(USE_CUDA OFF)

set(USE_LLVM OFF)

修改成：

set(USE_CUDA ON)

set(USE_LLVM ON)

修改好配置文件后，进行编译。由于修改了两个编译选项，所以首先须要cmake从新生成Makefile，之后每次新添加了文件和文件夹，必定要从新cmake，不然文件极可能没有编译。

cd build

好像最新版本编译出来的默认不是debug版本，为了保险，手动选择Debug选项

cmake -DCMAKE_BUILD_TYPE=Debug ..

make -j4

上边的三个步骤，很是关键，建议不要随便改变

在无错误编译完成后，build目录下造成了libtvm*.so之类的文件，咱们由于要修改tvm，因此不建议移动这些so文件到python目录下，建议添加响应的配置。具体配置以下：

在.bashrc文件中，添加

export TVM_PATH=path/to/tvm

export PYTHONPATH=$TVM_PATH/python:$TVM_PATH/topi/python:$TVM_PATH/nnvm/python:${PYTHONPATH}

2. TVM测试代码

在安装完成后，进入python的命令行，使用

>>>import tvm

测试tvm使用可使用

报错找不到module的缘由多是，配置不对，或者配置没有生效。简单的查看配置路径是否正确，能够按照如下命令进行

>>>import sys

>>>sys.path

查看python寻找module的文件夹，以排查错误。

下边列出生成CUDA代码的的一段python测试程序，程序来源于tvm.ai，略有改动

生成的结果以下：

import tvm
import numpy as np
import timeit
import pdb
import os

raw_input(os.getpid())
# The size of the matrix
# (M, K) x (K, N)
# You are free to try out different shapes, sometimes TVM optimization outperforms numpy with MKL.
M = 1024
K = 1024
N = 1024

# The default tensor type in tvm
dtype = "float32"

# using Intel AVX2(Advanced Vector Extensions) ISA for SIMD
# To get the best performance, please change the following line
# to llvm -mcpu=core-avx2, or specific type of CPU you use
tgt = "cuda"
tgt_host="llvm"

n = tvm.var("n")
A = tvm.placeholder((n,), name='A')
B = tvm.placeholder((n,), name='B')
C = tvm.compute(A.shape, lambda i: A[i] + B[i], name="C")
s = tvm.create_schedule(C.op)
#pdb.set_trace()
bx, tx = s[C].split(C.op.axis[0], factor=64)
if tgt == "cuda":
    s[C].bind(bx, tvm.thread_axis("blockIdx.x"))
    s[C].bind(tx, tvm.thread_axis("threadIdx.x"))

fadd = tvm.build(s, [A, B, C], tgt, target_host=tgt_host, name="myadd")
ctx = tvm.context(tgt, 0)

n = 1024
a = tvm.nd.array(np.random.uniform(size=n).astype(A.dtype), ctx)
b = tvm.nd.array(np.random.uniform(size=n).astype(B.dtype), ctx)
c = tvm.nd.array(np.zeros(n, dtype=C.dtype), ctx)
# fadd(a, b, c)
# tvm.testing.assert_allclose(c.asnumpy(), a.asnumpy() + b.asnumpy())

if tgt == "cuda":
    dev_module = fadd.imported_modules[0]
    print("-----GPU code-----")
    print(dev_module.get_source())
else:
    print(fadd.get_source())

3. gdb与pdb配置

Pdb通常是随着python安装包进行安装的，若是使用pdb命令失败，能够从新安装python。

上边的测试程序有可能会失败，报缺失decorator的错误，这是一个python的wheel，须要手动安装。

先说pdb的调试，pdb调试与gdb使用方式相似，都是使用pdb xxx.py进行。这个时候，程序会自动运行到程序的第一行。以后使用命令进行，网上相关的文档很是多，再也不进行赘述。

这里介绍下python pdb特有的一种调试方法，在源码中可使用

import pdb

pdb.set_trace()

而后使用python xxx.py运行程序，程序会自动断在pdb.set_trace()那一行，从该行起开始调试，这里仅做为介绍。

由于tvm是一个使用python接口，可是大部分实现是使用的C++的开源包。存在不少python和C++的交互，所以调试tvm的过程须要python和C++的联合调试工具。就是python代码须要pdb，C++代码须要gdb。所以后边介绍gdb对C++代码的调试。

因为进入的时候是python代码，所以想要使用gdb下断点很是困难。咱们须要使用gdb附加进程的方式进行。这个过程须要root的支持。可是目前使用的Ubuntu系统中没有root用户。使用如下命令来添加：

echo "0" | sudo tee /proc/sys/kernel/yama/ptrace_scope

为了方便调试，我在刚才的测试代码中加入了一个

import os

raw_input(os.getpid())

来方便进行调试。

4. 调试过程

使用命令运行程序

jourluohua@jour:~/work/python/tvm$ python gen_cuda.py

19143

19143是运行该python程序时的pid

在另外一个窗口中使用gdb attach该pid劫持python程序的线程

jourluohua@jour:~$ gdb attach 19143

而后对想要进行下断点的函数或者行进行下断点

(gdb) b tvm::codegen::CodeGenCUDA::PrintType

Breakpoint 1 at 0x7f22ae4e9df0 (2 locations)

在gdb所在的窗口使用c命令使程序执行起来

(gdb) c

Continuing.

而后再python对应的窗口输入回车，继续执行，就会断到断点所在的位置。