在PyTorch中使用DistributedDataParallel进行多GPU分布式模型训练

时间 2020-09-14

标签 pytorch 使用 distributeddataparallel 进行 gpu 分布式模型训练栏目系统架构繁體版

原文原文链接

先进的深度学习模型参数正以指数级速度增加:去年的GPT-2有大约7.5亿个参数，今年的GPT-3有1750亿个参数。虽然GPT是一个比较极端的例子可是各类SOTA模型正在推进愈来愈大的模型进入生产应用程序，这里的最大挑战是使用GPU卡在合理的时间内完成模型训练工做的能力。html 为了解决这些问题，从业者愈来愈多地转向分布式训练。分布式训练是使用多个GPU和/或多个机器训练深度学习模型的技术。

>>阅读原文<<