Transformer-XL解读(论文 + PyTorch源码)

前言 目前在NLP领域中,处理语言建模问题有两种最早进的架构:RNN和Transformer。RNN按照序列顺序逐个学习输入的单词或字符之间的关系,而Transformer则接收一整段序列,而后使用self-attention机制来学习它们之间的依赖关系。这两种架构目前来看都取得了使人瞩目的成就,但它们都局限在捕捉长期依赖性上。html 为了解决这一问题,CMU联合Google Brain在201
相关文章
相关标签/搜索