[NLP/Attention]关于attention机制在nlp中的应用总结

时间 2019-11-15

标签 nlp attention 关于机制应用总结繁體版

原文原文链接

原文连接： http://www.javashuo.com/article/p-rkrvpfrg-nk.html
html

attention 总结

参考：注意力机制（Attention Mechanism）在天然语言处理中的应用

Attention函数的本质能够被描述为一个查询（query）到一系列（键key-值value）对的映射，以下图。

在计算attention时主要分为三步:web

第一步是将query和每一个key进行类似度计算获得权重，经常使用的类似度函数有点积，拼接，感知机等；
第二步通常是使用一个softmax函数对这些权重进行归一化；
最后将权重和相应的键值value进行加权求和获得最后的attention。
目前在NLP研究中，key和value经常都是同一个，即key=value。
Attention在NLP中其实我以为能够当作是一种自动加权，它能够把两个你想要联系起来的不一样模块，经过加权的形式进行联系。目前主流的计算公式有如下几种：
markdown

经过设计一个函数将目标模块mt和源模块ms联系起来，而后经过一个soft函数将其归一化获得几率分布。
目前Attention在NLP中已经有普遍的应用。它有一个很大的优势就是能够可视化attention矩阵来告诉你们神经网络在进行任务时关注了哪些部分。不过在NLP中的attention机制和人类的attention机制仍是有所区别，它基本仍是须要计算全部要处理的对象，并额外用一个矩阵去存储其权重，其实增长了开销。而不是像人类同样能够忽略不想关注的部分，只去处理关注的部分。

网络

1、传统encoder-decoder模型

encoder-decoder模型

也就是编码-解码模型。所谓编码，就是将输入序列转化成一个固定长度的向量；解码，就是将以前生成的固定向量再转化成输出序列。
具体实现的时候，编码器和解码器都不是固定的,可选的有CNN/RNN/BiRNN/GRU/LSTM等等，你能够自由组合。好比说，你在编码时使用BiRNN,解码时使用RNN，或者在编码时使用RNN,解码时使用LSTM等等。app

1.1 encoder

对于输入序列 $x = (x_{1}, . . ., x_{T_{x}})$ ,其会将输入序列如图所示编码成一个context vector c ，encoder通常使用RNN，在RNN中，当前时间的隐藏状态是由上一时间的状态和当前时间输入决定的，也就是
$h_{t} = f (x_{t}, h_{t - 1})$
得到了各个时间段的隐藏层之后，再将隐藏层的信息汇总，生成最后的语义向量 c，至关于把整个句子的信息都包含了，能够当作整个句子的一个语义表示。
$c = q (h_{t}, . . ., h_{T_{x}})$
其中的f和q是非线性的函数
例如，在论文中有使用
$q (h_{t}, . . ., h_{T_{x}}) = h_{T_{x}}$
来简化计算

1.2 decoder

通常其做用为在给定context vector c和全部已预测的词 ${y_{1}, . . ., y_{t - 1}}$ 去预测 $y_{t}$ ，故t时刻翻译的结果y为如下的联合几率分布

框架

p (y) = \prod_{t = 1}^{T} p (y_{t} | {y_{1}, . . ., y_{t}}, c)

在RNN中（如上图所示），t时刻隐藏状态 $s_{t}$ 为：
svg
$s_{t} = f (s_{t - 1}, y_{t - 1}, c)$
而联合条件分布为：
函数
$p (y) = \prod_{t = 1}^{T} p (y_{t} | {y_{1}, . . ., y_{t}}, c) = q (y_{t - 1}, s_{t}, c)$
其中s是输出RNN中的隐藏层，C表明以前提过的语义向量， $y_{t - 1}$ 表示上个时间段的输出，反过来做为这个时间段的输入。而q则能够是一个非线性的多层的神经网络，产生词典中各个词语属于 $y_{t}$ 的几率。

1.3 存在问题：

使用传统编码器-解码器的RNN模型先用一些LSTM单元来对输入序列进行学习，编码为固定长度的向量表示；而后再用一些LSTM单元来读取这种向量表示并解码为输出序列。性能

采用这种结构的模型在许多比较难的序列预测问题（如文本翻译）上都取得了最好的结果，所以迅速成为了目前的主流方法。学习

这种结构在不少其余的领域上也取得了不错的结果。然而，它存在的一个问题在于：输入序列不论长短都会被编码成一个固定长度的向量表示，而解码则受限于该固定长度的向量表示。

这个问题限制了模型的性能，尤为是当输入序列比较长时，模型的性能会变得不好（在文本翻译任务上表现为待翻译的原始文本长度过长时翻译质量较差）。

“一个潜在的问题是，采用编码器-解码器结构的神经网络模型须要将输入序列中的必要信息表示为一个固定长度的向量，而当输入序列很长时则难以保留所有的必要信息（由于太多），尤为是当输入序列的长度比训练数据集中的更长时。”

2、加入attention

论文一：

参考博文：深度学习笔记(六)：Encoder-Decoder模型和Attention模型

NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE

这篇论文中首次将attention用到了nlp领域，论文中提出了一个想法，目前机器翻译的瓶颈在于不管是多长的输入，你们的广泛作法都是将全部输入经过一些方法合并成一个固定长度的向量去表示这个句子，这会形成的问题是，若是句子很长，那么这样的方法去做为decoder的输入，效果并不会很好。

该论文提出的加入attention的模型：
相比于以前的encoder-decoder模型，attention模型最大的区别就在于它不在要求编码器将全部输入信息都编码进一个固定长度的向量之中。相反，此时编码器须要将输入编码成一个向量的序列，而在解码的时候，每一步都会选择性的从向量序列中挑选一个子集进行进一步处理。这样，在产生每个输出的时候，都可以作到充分利用输入序列携带的信息。并且这种方法在翻译任务中取得了很是不错的成果。

1.1 编码（encoder）

此处并无不少特殊，使用双向LSTM，第j个隐藏状态 $h_{j} \to$ 只能携带第j个单词自己以及以前的一些信息；而若是逆序输入，则 $h_{j} \leftarrow$ 包含第j个单词及以后的一些信息。若是把这两个结合起来， $h_{j} = [h_{j} \to, h_{j} \leftarrow]$ 就包含了第 j 个输入和先后的信息。

1.2 解码（decoder）

1.2.1 context vector c
解码过程与传统encoder-decoder模型相同，只不过context vector c变为了 $c_{i}$

其中的 $c_{i}$ 是对每个输入的 ${x_{1}, . . ., x_{T}}$ encoder后的隐状态进行weighted sum（如上图所示）

c_{i} = \sum_{j = 1}^{T_{x}} a_{i j} h_{i j}

a_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})}

e_{i j} = a (s_{j - 1}, h_{i})

注： $h_{j}$ 为encoder的隐状态， $s_{j}$ 为decoder的隐状态
$a_{i j}$ 的值越高，表示第i个输出在第j个输入上分配的注意力越多，在生成第i个输出的时候受第j个输入的影响也就越大。
$e_{i j}$ ：encoder i处隐状态和decoder j-1 处的隐状态的匹配 match，此处的 alignment model a 是和其余神经网络一块儿去训练（即 joint learning），其反映了 $h_{j}$ 的重要性

1.2.2 其他部分

其他部分均与传统相同，y的联合几率分布

p (y) = \prod_{t = 1}^{T} p (y_{t} | {y_{1}, . . ., y_{t}}, c_{i}) = q (y_{t - 1}, s_{t}, c_{i})

在RNN中（如上图所示），t时刻隐藏状态 $s_{t}$ 为：
$s_{t} = f (s_{t - 1}, y_{t - 1}, c_{i})$

1.3 注意力矩阵

以前已经提过，每一个输出都有一个长为Tx的注意力向量，那么将这些向量合起来看，就是一个矩阵。对其进行可视化，获得以下结果

其中x轴表示待翻译的句子中的单词(英语)，y轴表示翻译之后的句子中的单词(法语)。能够看到尽管从英语到法语的过程当中，有些单词的顺序发生了变化，可是attention模型仍然很好的找到了合适的位置。换句话说，就是两种语言下的单词“对齐”了。所以，也有人把注意力模型叫作对齐(alignment)模型。并且像比于用语言学实现的硬对齐，这种基于几率的软对齐更加优雅，由于可以更全面的考虑到上下文的语境。

论文2、

Effective Approaches to Attention-based Neural Machine Translation

这篇论文的看点：扩展attention的计算方式，还有就是局部的attention方法
文中提出了两种注意力机制，global attention和local attention

1.global attention与论文一提到的模型很像，但作了简化
2.local attention是一种介于soft和hard attention之间的模型，他相对于global attention或者soft attention计算量更小，同时不像hard attention，local attention是可微分的

1.global attention

这和上一篇论文提出的attention的思路是同样的，它都是对源语言对全部词进行处理，不一样的是在计算attention

矩阵值的时候，他提出了几种简单的扩展版本。在他们最后的实验中general的计算方法效果是最好的。

a_{t} (s) = a l i g n (h_{t}, h_{s}) = \frac{e x p (s c o r e (h_{t}, h_{s}))}{\sum_{s^{'}} e x p (s c o r e (h_{t}, h_{s}^{'}))}

对比论文一：

a_{i j} = \frac{e x p (e_{i j})}{\sum_{k = 1}^{T_{x}} e x p (e_{i k})}

e_{i j} = a (s_{j - 1}, h_{i}) = v_{a}^{T} t a n h (W_{a} s_{i - 1} + U_{a} h_{j})

2.local attention

灵感来自于图像中的soft attention和hard attention，soft attention对于源图片中每一小块都进行权重的求和，计算较为费时，而hard attention则计算图像区域 a 在时刻 t 被选中做为输入decoder的信息的几率，有且仅有1个区域被选中，它不可微分，需更加复杂的处理。
local attention是一种介于soft和hard之间的方式，使用了一我的工经验设定的参数D去选择一个以 $p_{t}$ 为中心， $[p_{t} - D, p_{t} + D]$ 为窗口的区域，进行对应向量的weighted sum，故不像global attention，local alignment vector $a_{t}$ 的维数是固定的，不随输入序列长度变化而变化，它的维度固定为2D+1

此处使用了两种方法去选择 $p_{t}$ ：

1.单调对应(Monotonic alignment): 设定 $p_{t} = t$
2.Predictive alignment:
- 使用 $h_{t}$ 去预测 $p_{t}$ 所在位置：
  S为输入序列长度，此处保证了 $p_{t}$ 必定落在输入序列内
  $v_{p} ， W_{p}$ 为权重矩阵
  $p_{t} = S * s i g m o i d (v_{p}^{T} t a n h (W_{p} h_{t}))$
- 为了使得最后的求和更加的偏好靠近位置 $p_{t}$ 附近的向量，又在求和时加入了一个高斯函数，该函数u = $p_{t}$ ,使得 $p_{t}$ 周围的向量获得的权重更大，(s即为通常公式中的x， $p_{t}$ 为u， $p_{t}$ 为高斯分布峰值)
  $a_{t} (s) = a l i g n (h_{t}, h_{s}^{'}) e x p (- \frac{(s - p_{t})^{2}}{2 σ})$
  此处依据经验 $σ = \frac{D}{2}$

3.模型具体实现

将隐状态 $h_{t}$ 与 $c_{t}$ 进行拼接，产生输出

h_{t}^{'} = t a n h (W_{c} [c_{t}; h_{t}])

最后t时刻的输出

p (y_{t} | y_{< t}, x) = s o f t m a x (W_{c} h^{'} t)

此处与论文一不一样的点在于 Input-feeding Approach

在机器翻译领域，都须要使用一个coverage set（覆盖集）去记录那些source words已经被翻译

论文一中使用的是 $c_{i}$ ，其和上一个输出 $y_{i - 1}$ ,隐状态 $s_{i - 1}$ 一块儿做为时间t的输入
本文中使用 $h_{t}^{'}$ 做为输入，可是此处并未作对比试验比较二者的差异

4.结果比较

论文结果中，dot对于global更好，general对于local更好，-m表示Monotonic alignment，-p表示Predictive alignment

4.补充

关于soft attention和hard attention

1.Soft Attention Model

所谓Soft，意思是在求注意力分配几率分布的时候，对于输入句子X中任意一个单词都给出个几率，是个几率分布。

2.Hard Attention Model

既然Soft是给每一个单词都赋予一个单词对齐几率，那么若是不这样作，直接从输入句子里面找到某个特定的单词，而后把目标句子单词和这个单词对齐，而其它输入句子中的单词硬性地认为对齐几率为0，这就是Hard Attention Model的思想。

Hard AM在图像里证实有用，可是估计在文本里面用处不大，由于这种单词一一对齐明显要求过高，若是对不齐对后续处理负面影响很大，因此你在NLP的文献里看不到用Hard AM的，估计你们都试过了，效果很差。

3.介于Soft 和Hard之间

Soft AM要求输入句子每一个单词都要赋予单词对齐几率，Hard AM要求从输入句子中精确地找到一个单词来和输出单词对齐，那么能够放松Hard的条件，先找到Hard AM在输入句子中单词对齐的那个单词大体位置，而后以这个单词做为轴心，向左向右拓展出一个大小为D的窗口，在这个2D+1窗口内的单词内进行相似Soft AM的对齐几率计算便可。

论文三: ABCNN: Attention-Based Convolutional Neural Network for Modeling Sentence Pairs

参考资料：
卷积神经网络介绍
 论文解读
这篇论文就提出了3中在CNN中使用attention的方法，是attention在CNN中较早的探索性工做。
传统的CNN在构建句对模型时如上图，经过每一个单通道处理一个句子，而后学习句子表达，最后一块儿输入到分类器中。这样的模型在输入分类器前句对间是没有相互联系的，做者们就想经过设计attention机制将不一样cnn通道的句对联系起来。
这篇文章介绍的是利用带注意力机制的卷积神经网络进行句子对建模。句子对建模是天然语言处理中的一个经典问题，在诸如答案选择（Answer Selection, AS）、释义鉴定（Paraphrase Identification, PI）、文本继承（Textual Entailment, TE）等场景中都有应用。
- 以前的相关工做多局限于：
  - (1) 设计针对特定场景的特定系统；
  - (2) 对每一个句子分开考虑，不多考虑句子之间的影响；
  - (3) 依赖人工设计的繁杂特征。
- 该模型主要贡献有：
  - (1) 能够应对多种场景的句子对建模问题，泛化能力强；
  - (2) 利用注意力机制，在建模时考虑句子之间的影响；

1.注意力机制

该论文提出了三种注意力机制

1.1 ABCNN-1

两个句子的向量表示 $s_{0}, s_{1}$ 进行match生成attention矩阵，在卷积以前，加入attention矩阵，与表示矩阵s一块儿进行训练。

1.2 ABCNN-2

在卷积后，对于卷积完成的两个矩阵，进行match，match后按照行和列的求和生成两个矩阵各自的权重，再使用权重对其进行

1.3 ABCNN-3

对于1和2的共同使用

2.效果（3>2>1）

本文提出了三种用于卷积神经网络的注意力机制来进行句子对建模，并在三个常见任务上达到了较好的效果，体现了方法的泛化能力。同时也做者也指出，在三个任务上，两层注意力网络并不会明显优于一层注意力网络，多是因为相关数据集较小的缘由。总的来讲，在天然语言处理的相关任务上，卷积神经网络上的注意力机制研究相比长短时记忆网络（LSTM）来讲还相对较少，本文是一个较为不错的实现方式。

论文四：attention is all you need

参考：一文读懂「Attention is All You Need」| 附代码实现
 天然语言处理中的自注意力机制（Self-attention Mechanism）
这篇论文主要亮点在于:

1.不一样于以往主流机器翻译使用基于RNN的seq2seq模型框架，该论文用attention机制代替了RNN搭建了整个模型框架。
2.提出了多头注意力（Multi-headed attention）机制方法，在编码器和解码器中大量的使用了多头自注意力机制（Multi-headed self-attention）。
3.在WMT2014语料中的英德和英法任务上取得了先进结果，而且训练速度比主流模型更快。