47分钟,BERT训练又破全新纪录!英伟达512个GPU训练83亿参数GPT-2 8B

关注上方“深度学习技术前沿”,选择“星标公众号”, 资源干货,第一时间送达! 具有92个DGX-2H节点的NVIDIA DGX SuperPOD通过在短短47分钟内训练BERT-Large创下了新纪录。该纪录是通过每个节点上的1472个V100 SXM3-32GB 450W GPU和8个Mellanox Infiniband计算适配器,自动混合精度运行PyTorch来提高吞吐率,并使用本文中的训练
相关文章
相关标签/搜索