工程师如何给女朋友买包？问问阿里“百事通”

时间 2019-12-06

原文原文链接

阿里妹导读：工做那么忙，怎么给女友买包？是翻看包包的详情页，再从商品评论中去找信息吗？为了帮助相似的同窗节省时间，阿里工程师们提出快速回答生成模型RAGE。你问它答，这个“百事通”能从总体结构，评论的抽取和表示及融合四个方面综合解决生成模型响应速率及生成质量的问题，进而提升生成的回答的真实性及有效性。今后，如何给女朋友“买包”，再也不是难题。安全

本篇内容参考论文《Review-Driven Answer Generation for Product-Related Qestions in E-Commerce》论文做者为：武汉大学李晨亮、陈诗倩，阿里巴巴计峰、周伟、陈海青。网络

引言

随着互联网技术的普及，电子商务产业获得了蓬勃的发展，用户的购买行为逐渐由线下转移到线上，然而线上购物带来便利的同时，弊端也逐渐显现。用户在作购买决定以前，一般但愿获取更多的商品详情与使用感觉等信息，然而，当网页浏览与点击代替了面对面的交易，用户没法得到直观的判断，仅能经过翻阅商品详情页及已购买用户的评论获取有效信息。用户需浏览及过滤大量的评论信息才能得到商品的综合评价，这无疑增长了线上购物的时间成本，下降了用户的购物体验。app

为了解决线上环境信息获取渠道闭塞且耗时的问题，各大电商平台，例如，淘宝、亚马逊，相继提供社区问答（CQA）的服务。虽然社区问答在必定程度上缓解了部分用户浏览及过滤评论信息的时间成本，然而，等待已购买用户回答问题的过程一样是低效耗时且低召回的。所以，为了进一步节省用户购物时间，各大电商平台开始探索经过智能问答系统，自动、及时且真实的回答用户提出的商品相关性问题，帮助用户获取所需的信息。虽然现有的智能问答系统通过了几十年的发展，已经相对成熟，然而依然没法在电商领域普遍应用，其缘由在于：函数

1.检索式问答系统过度依赖于问答库，而电商领域中问题形式变幻无穷，构造完整的问答库相对困难且耗时。
2.现有的生成式问答系统的工做均以循环神经网络及其变种形式为基础。循环神经网络因其时序特性而没法并行处理，致使效率较低。
3.目前生成式问答系统外部信息的引入主要依赖于结构化的知识库或者是关键词及主题模型，而在电商领域中，商品知识库的构造是一项消耗时间及人力成本的工做。学习

所以针对电商领域问答系统的需求现状及现有工做中存在的不足，咱们创新性的提出了利用非结构评论信息引导回答生成的思想，同时提出了一种基于多层门控卷积神经网络的快速回答生成模型RAGE。该模型分别从总体结构，评论的抽取、表示及融合四个方面综合解决生成模型响应速率及生成质量的问题，进而提升生成的回答的真实性及有效性。测试

2 模型

模型总体结构如图1：编码

2.1基础结构spa

2.1.1问题编码器rem

考虑到循环神经网络存在的种种不足，咱们选择采用门控卷积神经网络做为问题编码器对问题序列进行编码。然而，卷积神经网络因其权值共享的特性，致使其对位置信息不敏感。为解决门控卷积神经网络位置信息丢失的问题，咱们在输入矩阵中引入位置向量，以保证卷积过程当中模型对于位置信息的敏感性。同时，咱们将词性信息（POS tag）引入输入矩阵，词性信息中所包含的句法和词法信息可以更好的帮助门控卷积神经网络理解词间关系和文本语义。get

然后咱们经过堆叠多层的门控卷积神经网络来扩大其感觉野，高层次的门控卷积神经网络能够经过低层次的门控卷积神经网络提取的特征建模距离中心词较远的上下文。同时，为了不由于网络层数加深而产生梯度消失问题，本文利用残差学习网络（ResidualConnection），将l层输入与l层的输出结合做为l+1层的输入，以保证在反向传播的过程当中梯度能稳定的在层级间传播。基于多层门控卷积神经网络的问题编码过程如公式2-2所示：

2.1.2 基础解码器

编码的过程与问题编码过程相似，不一样的地方在于，卷积核的感觉野被限制为上文而非上下文，由于回答生成的过程当中，j时刻的生成词由第j时刻的状态向量决定，而就生成过程而言，下一时刻的状态对于当前时刻是未知的，因此j时刻的状态向量中不该该带有下文的信息，如公式2-4，2-5所示：

2.2 评论的抽取、表示及融合

2.2.1 评论的抽取

咱们采用Word Mover’s Distance（WMD来衡量文本间的语义关系进行评论片断的抽取。对于给定问答对，首先拼接问答对中的问题与答案，然后对该问答对以及问题对应商品的全部评论片断集合R中的一个评论片断r进行分词并去除停用词，将二者分别表示为词袋，再分别计算每一个词的词频。

最终用问答对和评论片断间的最小转移开销表示二者间的距离，如公式2-10所示：

其中限制条件为：

2.2.2评论片断的表示

2.2.3 评论的融合

为了使每一层的生成状态均对外部信息保持敏感，在回答生成器中咱们一样采用了层次注意力机制。另外，咱们认为问答任务中外部信息的选择过程不只仅由当前的生成状态决定，还应与问题的语义密切相关。所以，在RAGE中咱们利用与当前生成状态相关的加权问题编码向量与带权词典计算注意力权重，其缘由在于加权问题编码向量中不只仅含有当前生成状态的信息，同时包含了问题的语义信息，可以准确的对外部信息进行选择。其具体过程如公式2-14，2-15所示，最终获得与l层j时刻生成状态相关的评论信息编码向量。

式中表示第l层中，j时刻的问题编码向量与带权词典中中第i个词的表示向量计算的注意力权重。

为了不信息的冗余，在每一层中本文经过门控机制选择性的利用问题编码信息和评论信息对生成状态进行更新，获得最终的生成状态。于是，将公式2-8改成公式2-16。

式中为门控权值向量，由l层的j时刻生成词生成状态，当前生成状态相关的加权问题编码向量，当前生成状态相关的评论信息编码通过函数()映射而得，具体程如公式2-17所示。

3 实验

3.1对比模型

1）Seq2seqwith Attention（Bahdanau 2016）
2）TA-Seq2seq（Xing2017）
3）ConvSeq2seq（Gehring2017）
4）ConvSeq2seq-RV：在ConvSeq2seq的基础上，每次生成时动态的限制生成的词必须出如今其对应的相关评论片断中
5）RAGE/POS：RAGE去除POS信息

3.2数据集

咱们使用了两个淘宝平台中真实的“问你们”数据集对模型的生成效率及质量进行测评，两个数据集分别为“手机”相关数据集及“你们电”相关数据集。其中“手机”数据集相对较小，仅涉及4457个商品，而“你们电”数据集相对较大且离散，包含冰箱、洗衣机等多个子类目下的47979个商品。

为了测试RAGE模型的泛化能力，本文从手机数据集中随机挑选出6个品牌的商品相关性问题及其对应商品的评论做为测试集，其他商品的问答对和评论做为训练集。一样的，随机挑选出“你们电”数据集下的两个子类目，取其问题及评论做为测试集，其他商品问答对和评论构成训练集。

最终获得的数据集统计信息如表4-1所示。表中表示问答对的数量，表示问题的词平均长度，表示标准回答的词平均长度，表示抽取的平均评论片断数目。

对于测试集，咱们仅保留其问题部分，该问题对应的标准回答仅用于衡量模型的生成效果不该参与训练及生成过程。抽取评论片断的过程当中，咱们首先利用Word Mover’s Distance在训练集中寻找其最类似的问题，取该问题的答案与测试集中的问题构成问答对。

3.3 评价指标

客观评价指标咱们采用词平均类似度（Embedding BaseSimilarity;ES）及句中离散度（Distinct）来衡量。主观评价方面，咱们规定了以下的打分标准：+3：若是生成的回答既通顺又与问题密切相关，同时包含有效信息且该有效信息与标准回答及用户评论相符，则该回答为3分。+2：若是生成的回答包含与标准回答及用户评论相符的有效信息，可是含有部分的语法错误，好比重复生成、句式紊乱等，则该回答为2分。+1：若是生成回答仅可以用于回答问题，可是不包含有效的信息，好比“我是给别人买的，我不知道”，“能够，能够”等无心义的回答，则该回答为1分。0：若是生成的回答毫无心义或者包含太多的语法错误以致于难以理解，则该回答为0分。然后邀请两位评价者对模型的生成回答进行评价，并利用kappa值衡量评价者间的评价一致性。

3.4 实验结果及分析

咱们对各模型进行了客观指标的评价，，并获得了如表4-2的结果。经过对两个指标的观察咱们发现，“你们电”数据集的词平均类似度总体低于“手机”数据集，其缘由多是因为“你们电”数据集类目复杂，句式较为离散，模型不易学习其问答间的转换关系。另外“你们电”数据集中RAGE/POS的句中离散度高于RAGE模型，经过结合主观评价指标的综合分析，咱们认为其可能的缘由是RAGE/POS生成了部分不相关的词，致使其句中离散度较高。同时咱们观察到，TA-Seq2seq和ConvSeq2seq-RV以及RAGE/POS、RAGE的句中离散度和词平均相关性在两个数据集上均高于Seq2seqA和ConvSeq2seq，佐证了本文“引入外部信息有利于生成包含有效信息以及贴合问题语义的回答”的观点。

主观评价的部分，咱们经过对表4-3，4-4中的结果进行分析，获得以下结论。第一，虽然RAGE生成的回答与标准回答在各方面都存在必定差距，可是相比于现有的回答生成工做，RAGE在通顺性以及包含有效信息程度等方面都有显著的提高。第二，咱们能够观察到，RAGE/POS和RAGE在2分的结果上有明显差距，说明词性信息的引入确实有助于提升回答生成的通顺性。

考虑到电商领域实时响应的需求，咱们在基础模型的搭建过程当中，将以往工做中经常使用的循环神经网络替换为多层门控卷积神经网络，为证实其效率，咱们在单卡 Tesla K40 GPU环境下对比了各个模型的训练及测试效率，其结果如表4-5中所示，能够观察到，基于循环神经网络的Seq2seqA和TA-Seq2seq模型，训练及测试的耗时明显高于基于多层卷积神经网络的其余模型。

表4-6 Case Study：

最后咱们作了Case Study。于表4-6中列出其标准回答，评论抽取过程当中Word Mover’s Distance最小的评论片断MSR，以及各个模型的生成结果。经过表中案例能够观察到，对于问题1,2,4这类简单的问题，各个模型生成的回答都相对贴合问题语义。Seq2seqA以及ConvSeq2seq这两个模型因为没有引入外部信息，其生成的回答明显不具有任何有效信息，是全部问题都适用的安全性回答。RAGE得利于其对评论片断的抗噪表示以及融合方式，生成的回答相比于其余模型更加准确、通顺、符合语法且包含丰富的有效信息。

问题3,5,6与问题1,2,4相比较为复杂，其包含了两个子问题，“制冷效果怎么样？”“制热呢？”从表4-6中罗列的结果可知，大部分模型，包括标准回答均只回答了一个子问题，只有RAGE对两个子问题都作出了回答。

4 总结

经过对实验结果进行主观、客观及模型效率的分析，咱们认为，RAGE在电商领域的问答任务中有较好的表现，相比于现有的其余工做，RAGE可以更加快速的生成具备通顺性，贴合问题语义且包含丰富信息的回答。

本文做者：阿里小蜜&武大

阅读原文

本文来自云栖社区合做伙伴“阿里技术”，如需转载请联系原做者。