硬核推导Google AdaFactor：一个省显存的宝藏优化器

时间 2021-01-20

原文原文链接

一只小狐狸带你解锁炼丹术&NLP秘籍作者：苏剑林（来自追一科技，人称“苏神”）前言自从GPT、BERT等预训练模型流行起来后，其中一个明显的趋势是模型越做越大，因为更大的模型配合更充分的预训练通常能更有效地刷榜。不过，理想可以无限远，现实通常很局促，有时候模型太大了，大到哪怕你拥有了大显存的GPU甚至TPU，依然会感到很绝望。比如GPT2最大的版本有15亿参数，最大版本的T5模型参数量甚至去

>>阅读原文<<