【NLP】选择目标序列:贪心搜索和Beam search

构建seq2seq模型,并训练完成后,咱们只要将源句子输入进训练好的模型,执行一次前向传播就能获得目标句子,可是值得注意的是:学习

seq2seq模型的decoder部分实际上至关于一个语言模型,相比于RNN语言模型,decoder的初始输入并不是0向量,而是encoder对源句子提取的信息。所以整个seq2seq模型至关于一个条件语言模型,本质上学习的是一个条件几率,即给定输入\(x\),学习几率分布\(P(y|x)\)。获得这个几率后,对应几率最大的目标句子\(y\)就是模型认为的最好的输出。咱们不但愿目标的输出是随机的(这至关于对学习的几率分布\(P(y|x)\)随机取样),但要选择最好的句子\(y\)须要在decoder的每一步遍历全部可能的单词,假如目标句子的长度为\(n\),词典大小为\(v\),那么显然,可能的句子数量是\(v^n\),这显然是作不到的。spa

一个天然的想法是贪心搜索(greedy search),即decoder的每一步都选择最可能的单词,最后获得句子的每个单词都是每一步认为最合适的单词。但这样并不保证整个句子的几率是最大的,即不能保证整个句子最合适。实际上,贪心搜索的每一步搜索都处理成仅仅与前面刚生成的一个单词相关,相似于马尔科夫假设。这显然是不合理的,具体来讲,贪心搜索到的句子\(y\)几率是使得下式几率最大:code

\(P(y|x) = \prod_{k=1}^{n}{p(y_k|x,y_{k-1})}\)内存

而实际上,根据全几率公式计算获得\(P(y|x)\)为:class

\(P(y|x) = \prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1})\)搜索

译为束搜索。思想是,每步选取最可能的\(k\)个结果,再从最后的\(k\)个结果中选取最合适的句子。\(k\)称为beam size。遍历

具体作法是:统计

首先decoder第一步搜索出最可能的\(k\)个单词,即找到\(y_{11},y_{12},...,y_{1k}\),他们的几率\(p(y_{11}|x),...,p(y_{1k}|x)\)为最大的\(k\)个。语言

进行第二步搜索,分别进行\(k\)个模型副本的搜索。每一个副本\(i\),根据上一步选取的单词\(y_{1i}\),选取几率最大的\(k\)个结果\(y_{21},y_{22},...,y_{2k}\)。这样,就有了\(k*k\)个可能的结果,从这些结果中选择\(k\)个几率最大的结果,即\(p(y_{1i}|x)*p(y_{2j}|x,y_{1i})\)最大的\(k\)个结果。co

进行第三步搜索,从第二步中肯定的\(k\)个结果出发,再进行\(k\)个模型副本的搜索,直到最后一步,从最后的\(k\)个结果中选取几率最大者。

显然,若\(k=1\)则为贪心搜索,\(k\)越大则占用内存越大,计算代价越大,实际应用中取10便可。

另外,能够发现几率的连乘使得几率愈来愈小,极可能溢出,为了保证模型的稳定性,常对几率连乘计算+log变为加法。

\(P(y|x) = log(\prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1}))\)

从Beam search的搜索过程当中能够发现,Beam search偏向于找到更短的句子,也就是说,若是搜索过程当中有一支搜索提早发现了\(<EOS>\),而另外\(k-1\)支继续搜索找到其他更长的结果,那么因为几率连乘(或log连加),越长的结果几率确定越小。所以有必要进行模型修正,即进行长度归一化,具体来讲,即:

选择几率\(P(y|x) = \frac{1}{n}log(\prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1}))\)最大的句子,式中,\(n\)为该结果序列长度。

另外,实践中还作了以下修正:

\(P(y|x) = \frac{1}{n^\alpha}log(\prod_{k=1}^{n}p(y_k|x,y_1,y_2,...,y_{k-1}))\)

式中,超参数\(\alpha\)取0.7比较合适。

4 偏差分析

对于训练的seq2seq模型,对它输出的句子\(y\),以及实际的句子\(y^*\),若几率\(y\)大于\(y^*\),(统计全部句子,平均来讲是这个结果),则说明,seq2seq模型出错了。不然,说明,baem search并无找到最合适的结果,能够考虑增大beam size大小。

相关文章
相关标签/搜索