****** 服务器上跑过程序常常能遇到out of memory 这个问题,下面是我常常在实验室碰到的解决方法。服务器
1.使用命令nvidia-smi,看到GPU显存被占满:spa
2.尝试使用 ps aux|grep PID命令查看占用GPU内存的线程的使用状况。以下线程
解决办法:blog
1.根据以上操做便可确认同与你使用一台服务器的其余人是谁在占用GPU。与对方沟通后若是程序已经跑完可是仍在占用显存可KILL掉该进程。进程
***因服务器资源有限,你们在使用过程当中及时互相沟通,保证机器利用效率。内存
2.多GPU的服务器在程序训练EPOCH 较多的时候应该指定GPU_DEVICE,不要占用所有资源。资源
3.使用jupyter的同窗在程序结束后应当及时在RUNNING界面将程序shutdown,不然该程序还会一直占用资源。(以下)效率