GPU型号为NVIDIA的1080Ti,最近出现的情况的是某一个GPU忽然就出问题了,若是在该GPU上有运行程序的话则程序中断,nvidia-smi显示出来的GPU则少了这一个。linux
一、一开始怀疑是温度问题,温度太高致使自动关闭。ubuntu
二、最好的方法是先看一下nvidia-bug-report,管理员输入sudo nvidia-bug-report.shthis
参考:https://devtalk.nvidia.com/default/topic/522835/linux/if-you-have-a-problem-please-read-this-first/编码
该命令会在本地生成一个nvidia-bug-report.log.gz,而后使用gunzip nvidia-bug-report.log.gz可解压缩获得nvidia-bug-report.log。blog
打开nvidia-bug-report.log,其中记录了不少gpu的运行信息,尤为是 /var/log/dmesg的信息,占据了该log文件的大部分,记录了从开机到生成report文件时GPU的全部运行状况。ip
包括详细时间,用户等(因为该文件是从ubuntu复制过来打开的,编码问题致使乱码,修改一下编码方式就不会了,这里看得懂就好)乱码
而后就能够定位到问题了bug
另外,nvidia-smi -a能够获取GPU的详细信息,也能够肯定消失的GPU的id号就是0000:09:00。程序
未完待续~~~~方法