Transformer-XL: Unleashing the Potential of Attention Models

时间 2020-01-12

标签 transformer unleashing potential attention models 繁體版

原文原文链接

简介

现实远程依赖问题，好比要正确理解文章内容，有时须要阅读多处段落，这对人来讲轻松自如。可是，对神经网络来讲，远程依赖问题依然是一个挑战。虽然基于门控的RNN（LSTM,GRU等）和梯度裁剪等技术提升了对远程依赖建模的能力，但仍不足以解决问题。
其中一个解决方法就是使用Transformers，Transformers容许数据单元直接链接，能够更好的捕获远距离的数据关系。可是，在语音模型中，Transformers通常使用固定长度context实现，即：把文本序列截断为几个固定长度的序列，而后分别单独处理。缓存

这存在两个问题：网络

没法计算超过固定长度的依赖关系。
序列截断后，形成段落边界破碎，从而形成低效优化，即便是短序列这也是严重问题。

为了解决这些问题，能够尝试使用Transformers-XL模型。Transformers-XL由两种技术构成：Segment-level Recurrence和Relative Positional Encodings。架构

Segment-level Recurrence

在训练期间，当模型处理下一个新段落时，将前一个段落的计算表示固定而且缓存以做为重用扩展上下文。此附加链接将最大可能的将依赖性长度增长N倍，其中N是网络的深度，由于上下文信息如今可以跨越段落边界流动。此外，这种重复机制还解决了上下文碎片问题。性能

Relative Positional Encodings

在标准的Transformer中，序列顺序的信息，都是由一组位置编码提供，每个位置都有绝对的位置信息。但将这个逻辑应用到重用机制中时，会致使性能损失。这个问题的解决思路是，对隐藏状态中的相对位置信息进行编码。从概念上讲，位置编码为模型提供了关于应如何收集信息的时间线索，即应该在哪里介入处理。以相对的方式定义时间线索，将相同的信息注入每层的注意分数，更加直观，也更通用。基于这个思路，能够建立一组相对位置编码，使得重用机制变得可行，也不会丢失任何的时间信息。将相对位置嵌入Transformer之中，并配合重用机制，就获得了Transformer-XL的架构。基于这些改进，Transformer-XL在相关的数据集上都取得了很好的成绩。论文中表示，这是第一个在字符级和单词级建模方面比RNN结果更好的自注意力模型。学习

总结

Transformer-XL 在几种不一样的数据集（大 / 小，字符级别 / 单词级别等）均实现了最早进的语言建模结果。它结合了深度学习的两个重要概念——循环机制和注意力机制，容许模型学习长期依赖性，且可能能够扩展到须要该能力的其余深度学习领域，例如音频分析（如每秒 16k 样本的语音数据）等。优化