论文笔记:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

前言 论文链接:https://www.aclweb.org/anthology/P19-1285/ github:https://github.com/kimiyoung/transformer-xl 目前在NLP领域中,处理语言建模问题有两种最先进的架构:RNN和Transformer。RNN按照序列顺序逐个学习输入的单词或字符之间的关系,而Transformer则接收一整段序列,然后使用se
相关文章
相关标签/搜索