服务器上运行程序Out of memory 解决办法

 ****** 服务器上跑过程序常常能遇到out of memory 这个问题,下面是我常常在实验室碰到的解决方法。服务器

1.使用命令nvidia-smi,看到GPU显存被占满:spa

2.尝试使用 ps aux|grep PID命令查看占用GPU内存的线程的使用状况。以下线程

解决办法:blog

1.根据以上操做便可确认同与你使用一台服务器的其余人是谁在占用GPU。与对方沟通后若是程序已经跑完可是仍在占用显存可KILL掉该进程。进程

***因服务器资源有限,你们在使用过程当中及时互相沟通,保证机器利用效率。内存

2.多GPU的服务器在程序训练EPOCH 较多的时候应该指定GPU_DEVICE,不要占用所有资源。资源

3.使用jupyter的同窗在程序结束后应当及时在RUNNING界面将程序shutdown,不然该程序还会一直占用资源。(以下)效率

相关文章
相关标签/搜索