基于文件存储UFS的Pytorch训练IO五倍提高实践

咱们在协助某AI客户排查一个UFS文件存储的性能case时发现,其使用的Pytorch训练IO性能和硬件的IO能力有很大的差距(后面内容有具体性能对比数据)。git 让咱们感到困惑的是:UFS文件存储,咱们使用fio自测能够达到单实例最低10Gbps带宽、IOPS也可达到2w以上。该AI客户在高IOPS要求的AI单机小模型训练场景下,或者以前使用MXNet、TensorFlow框架时,IO都能跑到
相关文章
相关标签/搜索