【笔记】Attention Is All You Need

时间 2021-07-13 标签自然语言处理

Introduction

本文是谷歌发表的文章，针对nlp里的机器翻译问题，提出了一种被称为”Transformer”的网络结构，基于注意力机制。文章提出，以往nlp里大量使用RNN结构和encoder-decoder结构，RNN及其衍生网络的缺点就是慢，问题在于前后隐藏状态的依赖性，无法实现并行，而文章提出的”Transformer”完全摒弃了递归结构，依赖注意力机制，挖掘输入和输出之间的关系，这样做最大的好处是能够并行计算了。

Attention mechanisms

注意机制已成为各种任务中引人注目的序列建模和转导模型的组成部分，允许其中中建模依赖关系，而不考虑它们的距离输出序列。然而，在除少数情况外的所有情况下，这种注意机制都与一个递归网络一起使用。

Background

seq2seq模型
传统的编码器解码器一般使用RNN，这也是在机器翻译中最经典的模型，但正如我们都知道的，RNN难以处理长序列的句子，无法实现并行，并且面临对齐问题。

之后这类模型的发展大多从三个方面着手：
input的方向性 - 单向或双向
深度 - 单层或多层
类型– RNN，LSTM或GRU

但是依旧收到一些潜在问题的制约，神经网络需要能够将源语句的所有必要信息压缩成固定长度的向量。这可能使得神经网络难以应付长时间的句子，特别是那些比训练语料库中的句子更长的句子；每个时间步的输出需要依赖于前面时间步的输出，这使得模型没有办法并行，效率低；仍然面临对齐问题。

再然后CNN由计算机视觉也被引入到deep NLP中，CNN不能直接用于处理变长的序列样本但可以实现并行计算。完全基于CNN的Seq2Seq模型虽然可以并行实现，但非常占内存，很多的trick，大数据量上参数调整并不容易。

以上这些缺点的话就是由于无论输入如何变化，encoder给出的都是一个固定维数的向量，存在信息损失；在生成文本时，生成每个词所用到的语义向量都是一样的，这显然有些过于简单。为了解决上面提到的问题，一种可行的方案是引入attentionmechanism。

Attention

Attention与NLP开山之作：Neural machine translation by jointly learning to align and translate https://arxiv.org/pdf/1409.0473.pdf

这篇论文首先将注意力机制运用在NLP上，提出了soft Attention Model，并将其应用到了机器翻译上面。其实，所谓Soft，意思是在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布。加入注意力机制的模型表现确实更好，但也存在一定问题，例如：attention mechanism通常和RNN结合使用，我们都知道RNN依赖t-1的历史信息来计算t时刻的信息，因此不能并行实现，计算效率比较低，特别是训练样本量非常大的时候。
Encoder：CNN+Attention

基于CNN的Seq2Seq+attention的优点：基于CNN的Seq2Seq模型具有基于RNN的Seq2Seq模型捕捉long distance dependency的能力，此外，最大的优点是可以并行化实现，效率比基于RNN的Seq2Seq模型高。缺点：计算量与观测序列X和输出序列Y的长度成正比。