深度学习分布式训练实战(一)

本系列博客主要介绍使用Pytorch和TF进行分布式训练,本篇重点介绍相关理论,分析为什么要进行分布式训练。后续会从代码层面逐一介绍实际编程过程中如何实现分布式训练。 文章目录 常见的训练方式 单机单卡(单GPU) 单机多卡(多GPU并行) 多机多卡(分布式) 为什么要使用分布式训练 Batch Size对训练的影响 分布式训练实现方式 数据并行 模型并行 混合并行 多GPU训练的参数更新方式 总
相关文章
相关标签/搜索