论文笔记：Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

时间 2021-01-02

原文原文链接

前言论文链接：https://www.aclweb.org/anthology/P19-1285/ github：https://github.com/kimiyoung/transformer-xl 目前在NLP领域中，处理语言建模问题有两种最先进的架构：RNN和Transformer。RNN按照序列顺序逐个学习输入的单词或字符之间的关系，而Transformer则接收一整段序列，然后使用se