Transformer-XL解读（论文 + PyTorch源码）

时间 2019-12-09

标签 transformer 解读论文 pytorch 源码繁體版

原文原文链接

前言目前在NLP领域中，处理语言建模问题有两种最早进的架构：RNN和Transformer。RNN按照序列顺序逐个学习输入的单词或字符之间的关系，而Transformer则接收一整段序列，而后使用self-attention机制来学习它们之间的依赖关系。这两种架构目前来看都取得了使人瞩目的成就，但它们都局限在捕捉长期依赖性上。html 为了解决这一问题，CMU联合Google Brain在201

>>阅读原文<<