pytorch面试总结

一. pytorch多卡训练的原理 思想 (1)将模型加载到一个指定的主GPU上,而后将模型浅拷贝到其它的从GPU上; (2)将总的batch数据等分到不一样的GPU上(坑:须要先将数据加载到主GPU上); (3)每一个GPU根据本身分配到的数据进行forward计算获得loss,并经过backward获得权重梯度; (4)主GPU将全部从GPU获得的梯度进行合并并用于更新模型的参数。 实现 (1
相关文章
相关标签/搜索