Training Deep Nets with Sublinear Memory Cost

《Training Deep Nets with Sublinear Memory Cost》笔记 摘要 我们提出了一种减少深度神经网络训练时内存消耗的系统性方法。具体来说,我们设计了一个算法,训练一个 n n 层网络仅耗费 O(n−−√) O ( n ) 的内存,每个mini-batch只需要一个额外的前向计算成本。由于许多最先进的模型已经达到了GPU显存的上限,我们的算法允许探索更深入更复杂的
相关文章
相关标签/搜索