Training Deep Nets with Sublinear Memory Cost

时间 2020-12-30

原文原文链接

《Training Deep Nets with Sublinear Memory Cost》笔记摘要我们提出了一种减少深度神经网络训练时内存消耗的系统性方法。具体来说，我们设计了一个算法，训练一个 n n 层网络仅耗费 O(n−−√) O ( n ) 的内存，每个mini-batch只需要一个额外的前向计算成本。由于许多最先进的模型已经达到了GPU显存的上限，我们的算法允许探索更深入更复杂的