模型训练速度下降

1. 问题描述: 重复训练之前的模型,发现训练速度明显下降,之前寻一个epoch只需要4分钟,但现在训一个epoch半个多小时。 2. 解决办法 排查了一整天,结果在另一个人的程序停止后,我的训练速度自动回复了正常。我没有解决,服务器自己解决了。。。 下面这张图:6号GPU是另一个同学在用,我的训练很慢的时候,他的GPU利用率基本保持在95%~97%(watch -n 1 nvidia-smi看得
相关文章
相关标签/搜索