Accurate, Large Minibatch SGD

摘要 愈来愈大的神经网络和愈来愈大的数据集使得训练时间愈来愈长,阻碍了研究的进行。分布式的同步SGD经过将SGD的minibatches划分为一系列并行的worker,可能为上面的问题提供一个可能的解决方案。为了让这个方案尽可能高效,每一个worker的负载必须足够大,这使得SGD的minibatched变得很大。在这篇论文中,做者展现了当minibatched变得很大时,ImageNet数据集的
相关文章
相关标签/搜索