ICLR 2020 | reformer高效处理长序列,单机能跑,计算资源贫困人士的福音

基于Transformer的各种巨型模型在各种自然语言处理任务中常常能够取得最优结果,但这些模型的训练成本往往过高,在针对长序列文本上尤甚。为此,本文提出两种技术以改善基于Transformer的这类模型,名为Reformer。第一,使用局部敏感hash,替换原始的点乘方式的attention,从而将其空间复杂度从O(L^2)降低到O(Llog L),其中L表示文本序列的长度。第二,使用逆残差层代
相关文章
相关标签/搜索