Nvidia GPU 模型训练环境安装

服务器类型:Nvidia GPU服务器linux

操做系统:Ubuntu 16.04 LTSdocker

基础软件:Docker-ce,Nvidia-Docker,cuda,Nvidia driver等ubuntu

辅助软件:nvidia-prime,lrzsz等(非必须)服务器

经常使用命令:apt-get install (安装软件);apt remove (卸载软件);网络

Apt list (查询软件列表,包含已安装);dpkg -i  (安装deb包);工具

Dpkg -l (搜索已安装 软件,可配合grep) Dpkg -P (卸载软件 )ui

 

安装步骤:操作系统

注意:全新的环境除nvidia driver外,另个三个软件应该在全新环境中未涉及,但保险起见,依然要求将driver卸载后再进行从新安装 ;ci

1、卸载及检查:rem

1./usr/bin/nvidia-uninstall (卸载驱动);

2./usr/local/cuda/bin/uninstall_cuda_8.0.pl (卸载cuda);

3.docker version (查看docker版本);

4.nvidia-docker version (查看nvidia-docker 版本);

注:以上服务docker和nvidia-docker不强制要求,可卸载与不卸载,但版本要符合兼容要求便可 ;

5.find / -name cuda (检查各安装软件的文件,是否有残留);

6.nvidia-settings (查询本机gpu相关信息,仅限于本机图形化界面使用,远程方式没法使用此命令)

2、安装 :

1.切换到软件全部目录并切换到root权限并附于安装文件的执行权限(+x);

2. ./NVIDIA-Linux-x86_64-375.66.run (安装driver,按步骤一步一步来便可);

3. ./cuda_8.0.61_375.26_linux.run (安装cuda,除driver一项选择no外,其它默认或yes都可);

4.dpkg -i docker-ce_17.06.0-ce-0-ubuntu_amd64.deb (安装docker-ce,docker-ce,docker.io,docker-engine 只能安装一个);

5.dpkg -i nvidia-docker_1.0.1-1_amd64.deb (安装nvidia-docker,依赖于docker-ce,各版本依赖不一样,具体参考官网);

3、检查&启动服务

1.nvidia-smi (查看dirver版本);

2.nvcc -V(查看cuda版本);

3./usr/local/cuda/extras/demo_suite/deviceQuery (查看cuda 驱动及运行环境版本,一致会返回Result=Pass的结果,不一致会返回 Result=Fail及具体错误,如出现错误须要修正错误,不然docker、nvidia或训练模型时会出错);

4.prime-select query (查看当前使用的显卡类型,返回nvidia是正常的,其余则配置不对,须要安装 nvidia-prime软件包);

5.环境变量初始化(/etc/profile),在文件最后增长如下两行环境信息

       export PATH=/usr/local/cuda-8.0/bin:$PATH

       export LD_LIBRARY_PATH=/usr/local/cuda-8.0/lib64

       设置完成后从新登陆后生效或source /etc/profile 生效

6.systemctl start docker (启动docker服务);

7.systemctl start nvidia-docker (启动nvidia-docker服务,通常会同docker服务启动,如未启动须要手动启动);

8.systemctl enable docker (docker服务开机自动启动);

9.docker version (查看docker版本);

10.nvidia-docker version (查看nvidia-docker 版本);

注:以上检查及服务启动正常后可进行相关模型的docker容器的run(运行);

4、训练及训练完成模型对外提供服务

参见Yolo训练环境或官方手

5、常见问题

Q:Could not load UVM kernel module. Is nvidia-modprobe installed?

A:nvidia gpu驱动未正常安装,请重装安装;

Q:unsupported CUDA version: driver 0.0 < image 8.0 ?

A:安装的cuda版本低于训练所须要的版本,须要安装指定的版本;

Q:CUDA Error: CUDA driver version is insufficient for CUDA runtime version?

A:安装的CUDA的驱动版本与运行环境环境不一致所致,从新安装驱动与运行环境,使其检查结果为Result=PASS (deviceQuery 工具);

Q:安装Nvidia驱动过程当中,如使用的图形化界面安装服务有可能出现没法安装的状况?

A:请退出退出图形化界面,使用 init 1 切换到单用户终端模型式进行驱动的安装,安装完成后再经过 inti 2切换成图形及网络模型下。

相关文章
相关标签/搜索