记录,太坑了,深度学习显卡损坏原来是这样子的。

记录,太坑了,深度学习显卡损坏原来是这样子的。 时间 2020-10-23 深度学习服务器,3张 RTX2080Ti。 损坏的是1号卡,就是夹在0号和2号卡中间的那张卡。 可能常年温度太高,烧坏了。 事件记录: 每过一段时间,1号卡温度和功率会变成nan。重启服务器就好了。 但服务器经常有任务,也不能随便重启,没看到什么问题,就不管了。 又过了一段时间。发现模型运算超慢的。还以为那里出问题了,查来
相关文章
相关标签/搜索