京东电商场景下的AI实践 - 基于关键词自动生成摘要

Alt

导言
过去几十年间,人类的计算能力得到了巨大提高;随着数据不断积累,算法日益先进,咱们已经步入了人工智能时代。确实,人工智能概念很难理解,技术更是了不得,背后的数据和算法很是庞大复杂。不少人都在疑惑,如今或将来AI将会有哪些实际应用呢?
其实,关于AI的实际应用以及所带来的商业价值并无那么的“玄幻”,不少时候就已经在咱们的身边。接下来,【AI论文解读】专栏将会经过相关AI论文的解读,由深刻浅地为你们揭秘,AI技术是如何对电商领域进行赋能,以及相关的落地与实践。 人工智能技术在电商领域,有着丰富的应用场景。应用场景是数据入口,数据经过技术获得提炼,反过来又做用于技术,两者相辅相成。

京东基于天然语言理解与知识图谱技术,开发了商品营销内容AI写做服务。并将此项技术应用到了京东商城【发现好货】频道中。算法

Alt
京东【发现好货】频道网络

经过AI创做的数十万商品营销图文素材,不只填补了商品更新与达人写做内容更新之间的巨大缺口,也提高了内容频道的内容丰富性。框架

同时,AI生成内容在曝光点击率、进商详转化率等方面其实都表现出了优于人工创做营销的内容。机器学习

接下来让咱们让我经过解读入选 AAAI 2020 的论文来一块儿来看看,如何经过AI来实现针对不一样群体采用不一样营销策略及不一样风格的营销文案从而提升营销转化率的。性能


自动文本摘要(简称“自动文摘”)是天然语言处理领域中的一个传统任务,其提出于 20 世纪 50 年代。自动文摘任务的目标是对于给定的文本,得到一段包含了其中最重要信息的简化文本。经常使用的自动文摘方法包括抽取式自动文摘(Extractive Summarization)和生成式自动文摘(Abstractive Summarization)。抽取式自动文摘经过提取给定文本中已存在的关键词、短语或句子组成摘要;生成式自动文摘经过对给定文本创建抽象的语意表示,利用天然语言生成技术,生成摘要。学习

本文所介绍的是基于关键词指导的生成式句子摘要方法,该方法融合了抽取式自动文摘和生成式自动文摘,在Gigaword句子摘要数据集上与对比模型相比,取得了更好的性能。测试

Alt

论文连接:http://box.jd.com/sharedInfo/B2234BB08E365EEC编码

Alt

生成式句子摘要(Abstractive Sentence Summarization)任务的输入是一个较长的句子,输出是该输入句子的简化短句。人工智能

咱们注意到,输入句子中的一些重要词语(即关键词)为摘要的生成提供了指导线索。另外一方面,当人们在为输入句子创做摘要时,也每每会先找出输入句子中的关键词,而后组织语言将这些关键词串接起来。最终,生成内容不只会涵盖这些关键词,还会确保其流畅性和语法正确性。咱们认为,相较于纯粹的抽取式自动文摘和生成式自动文摘,基于关键词指导的生成式自动文摘更接近于人们创做摘要时的习惯。spa

Alt
图1:输入句和参考摘要之间的重叠关键词(用红色标记)涵盖了输入句的重要信息,咱们能够根据从输入语句中提取的关键字生成摘要

咱们举一个简单的句子摘要的例子。如图1所示,咱们能够大体将输入句子和参考摘要的重叠的词(停用词除外)做为关键词,这些重叠的词语覆盖了输入句子的要点。例如,咱们经过关键词“世界各国领导人”“关闭”和“切尔诺贝利” ,能够获取输入句子的主旨信息,即“世界各国领导人呼吁关闭切尔诺贝利”,这与实际的参考摘要 “世界各国领导人敦促支持切尔诺贝利核电站关闭计划”是相吻合的。这种现象在句子摘要任务中很常见:在Gigaword句子摘要数据集上,参考摘要中的词语超过半数会出如今输入句子中。

Alt

句子摘要任务的输入为一个较长的句子,输出是一个简短的文本摘要。咱们的动机是,输入文本中的关键词能够为自动文摘系统提供重要的指导信息。首先,咱们将输入文本和参考摘要之间重叠的词(停用词除外)做为Ground-Truth关键词,经过多任务学习的方式,共享同一个编码器对输入文本进行编码,训练关键词提取模型和摘要生成模型,其中关键词提取模型是基于编码器隐层状态的序列标注模型,摘要生成模型是基于关键词指导的端到端模型。关键词提取模型和摘要生成模型均训练收敛后,咱们利用训练好的关键词提取模型对训练集中的文本抽取关键词,利用抽取到的关键词对摘要生成模型进行微调。测试时,咱们先利用关键词提取模型对测试集中的文本抽取关键词,最终利用抽取到的关键词和原始测试文本生成摘要。

一、多任务学习

文本摘要任务和关键词提取任务在某种意义上很是类似,都是为了提取输入文本中的关键信息。不一样点在于其输出的形式:文本摘要任务输出的是一段完整的文本,而关键词提取任务输出的是关键词的集合。咱们认为这两个任务均须要编码器可以识别出输入文本中的重要信息的能力。所以,咱们利用多任务学习框架,共享这两个任务编码器,提高编码器的性能。

二、基于关键词指导的摘要生成模型

咱们受Zhou等人工做[1]的启发,提出了一种基于关键词指导的选择性编码。具体来讲,因为关键词含有较为重要的信息,经过关键词的指导,咱们构建一个选择门网络,其对输入文本的隐层语义信息进行二次编码,构造出一个新的隐层。基于这个新的隐层进行后续的解码。

咱们的解码器基于Pointer-Generator网络[2],即融合了复制机制的端到端模型。对于Generator模块,咱们提出直连、门融合和层次化融合的方式对原始输入文本和关键词的上下文信息进行融合;对于Pointer模块,咱们的模型能够选择性地将原始输入和关键词中的文本复制到输出摘要中。

Alt

一、数据集

在本次实验中,咱们选择在Gigaword数据集上进行实验,该数据集包含约380万个训练句子摘要对。咱们使用了8000对做为验证集,2000对做为测试集。

二、实验结果

表1显示了咱们提出的模型比没有关键词指导的模型表现更好。咱们测试了不一样的选择性编码机制,分别是输入文本的自选择,关键词选择和互选择,实验结果显示互选择的效果最佳;对于Generator模块,咱们发现层次化融合的方式要优于其余两种融合方式;咱们的双向Pointer模块比原始的仅能从输入文本中复制的模型表现更好。

Alt
表1

本文致力于生成式句子摘要的任务,即如何将一个长句子转换成一个简短的摘要。咱们提出的模型能够利用关键词做为指导,生成更加优质的摘要,得到了比对比模型更好的效果。

1)经过采用了多任务学习框架来提取关键词和生成摘要;

2)经过基于关键字的选择性编码策略,在编码过程当中获取重要的信息;

3)经过双重注意力机制,动态地融合了原始输入句子和关键词的信息;

4)经过双重复制机制,将原始输入句子和关键词中的单词复制到输出摘要中。

在标准句子摘要数据集上,咱们验证了关键词对句子摘要任务的有效性。

注释:

[1] Zhou, Q.; Yang, N.; Wei, F.; and Zhou, M. 2017. Selective encoding for abstractive sentence summarization. In Proceedings of ACL, 1095–1104.

[2] See, A.; Liu, P. J.; and Manning, C. D. 2017. Get to the point: Summarization with pointer-generator networks. In Proceedings of ACL, 1073–1083.


在上一篇专栏文章中,咱们为你们详细介绍了京东商城是如何在现有基础上进行更进一步的技术探究与创新,从而有效提高电商的营销转化率的。详情可点击下方进行查看👇👇👇

京东商城背后的AI技术能力揭秘 - 基于关键词自动生成摘要

京 东 AI 研 究 院
京东AI研究院专一于持续性的算法创新,多数研究将由京东实际的业务场景需求为驱动。研究院的聚焦领域为:计算机视觉、天然语言理解、对话、语音、语义、机器学习等实验室,已逐步在北京、南京、成都、硅谷等全球各地设立职场。

Alt

Alt

相关文章
相关标签/搜索