SINGLE-MACHINE MODEL PARALLEL BEST PRACTICES

 模型并行在分布式训练技术中得到了广泛的应用。以前的帖子已经解释了如何使用DataParallel数据并行在多个GPU上训练神经网络;这个特性将相同的模型复制到所有GPU,其中每个GPU消耗输入数据的不同分区。虽然它可以显著加速训练过程,但对于模型太大而不能适应单个GPU的一些用例,它不起作用。这篇文章展示了如何通过使用model parallel模型并行来解决这个问题,与数据并行相比,它将单个模
相关文章
相关标签/搜索