谷歌开源先进语言模型Transformer-XL：集Transformer和RNN之大成

时间 2021-01-20

原文原文链接

近日，谷歌联合 CMU 开源了一个名为 Transformer-XL 的语言模型，它是目前处理语言建模问题最先进的架构之一 Transformer 模型的第三代升级，不仅能够处理可变长度序列，并且在多个任务中刷新了当前的最好性能（推理速度快 300-1800 倍）。 2017年6月，谷歌大脑在论文《Attention Is All You Need》中提出了一个完全基于注意力机制的编解码器模型Tr