caffe多GPU训练问题之gpu 0 does not have p2p access to gpu 2

时间 2021-08-15 标签 caffe

在训练center-loss 网络时，center-loss 太大，虽然乘以一个很小的系数(0.008)，还是导致loss特别大，最后loss为87.3365，为nan。
不断调整参数，最后可以训练了，然后看输出:

在gpu 0 和gpu 2之间没有p2p 交互。
stackoverflow上的problem1,说性能会下降，因为没有用到 SLI bridge,只会导致训练速度的下降，不会带来其他的问题;problem2。
找到了官方的文档multi-gpu解释,在使用多GPU时，性能会跟最差的那一个一致，并且是，实际的batchsize数为网络文件中的batchsize*gpu个数。
没开 p2p dma access 会导致计算性能下降。
使用nvidia-smi topo -m查看，