常识性概念图谱建设以及在美团场景中的应用

常识性概念图谱,是围绕常识性概念创建的实体以及实体之间的关系,同时侧重美团的场景构建的一类知识图谱。本文介绍了美团常识性概念图谱构建的Schema,图谱建设中遇到的挑战以及建设过程当中的算法实践,最后介绍了一些目前常识性概念图谱在业务上的应用。

1、引言

在天然语言处理中,咱们常常思考,怎么样才能作好天然语言的理解工做。对咱们人类来讲,理解某一个天然语言的文本信息,一般都是经过当前的信息,关联本身大脑中存储的关联信息,最终理解信息。例如“他不喜欢吃苹果,可是喜欢吃冰淇淋”,人在理解的时候关联出大脑中的认知信息:苹果,甜的,口感有点脆;冰淇淋,比苹果甜,口感软糯、冰凉,夏天能解暑;小孩更喜欢吃甜食和冰淇淋。因此结合这样的知识,会推理出更喜欢冰淇淋的若干缘由。可是如今不少天然语言理解的工做仍是聚焦在信息的层面,如今的理解工做相似于一个贝叶斯几率,从已知的训练文本中寻找符合条件的最大化文本信息。html

在天然语言处理中作到像人同样去理解文本是天然语言处理的终极目标,因此如今愈来愈多的研究上,引入了一些额外的知识,帮助机器作好天然语言文本的理解工做。单纯的文本信息只是外部客观事实的表述,知识则是在文本信息基础之上对外部客观事实的概括和总结,因此在天然语言处理中加入辅助的知识信息,让天然语言理解的更好。前端

创建知识体系则是一种直接的方式,可以帮助天然语言理解得更准确。知识图谱就是围绕这个思想提出,指望经过给机器显性的知识,让机器可以像人同样进行推理理解。因此在2012年Google 正式提出了知识图谱(Knowledge Graph)的概念,它的初衷是为了优化搜索引擎返回的结果,加强用户的搜索质量及体验。算法

图1 信息和知识

2、常识性概念图谱介绍

常识性概念图谱就是创建概念与概念之间的关系,帮助天然语言文本的理解。同时咱们的常识性概念图谱侧重美团场景,帮助提高美团场景中的搜索、推荐、Feeds流等的效果。后端

按照理解的需求,主要是三个维度的理解能力:安全

  1. 是什么,概念是什么,创建核心概念是什么的关联体系。例如“维修洗衣机”,“维修”是什么,“洗衣机”是什么。
  2. 什么样,核心概念某一方面的属性,对核心概念某一方面的细化。“带露台的餐厅”、“亲子游乐园”、“水果千层蛋糕”中“带露台”、“亲子”、“水果千层”这些都是核心概念某一个方面的属性,因此须要创建核心概念对应属性以及属性值之间的关联。
  3. 给什么,解决搜索概念和承接概念之间的Gap,例如“阅读”、“逛街”、“遛娃”等没有明确对应的供给概念,因此创建搜索和供给概念之间的关联网络,解决这一类问题。

总结下来,涵盖“是什么”的概念Taxonomy体系结构,“什么样”的概念属性关系,“给什么”的概念承接关系。同时POI(Point of Interesting)、SPU(Standard Product Unit)、团单做为美团场景中的实例,须要和图谱中的概念创建链接。网络

图2 常识性概念图谱关系

从建设目标出发,拆解总体常识性概念图谱建设工做,拆分为三类节点和四类关系,具体内容以下。架构

2.1 图谱三类节点

Taxonomy节点:在概念图谱中,理解一个概念须要合理的知识体系,预约义好的Taxonomy知识体系做为理解的基础,在预约义的体系中分为两类节点:第一类在美团场景中能够做为核心品类出现的,例如,食材、项目、场所;另外一类是做为对核心品类限定方式出现的,例如,颜色、方式、风格。这两类的节点的定义都能帮助搜索、推荐等的理解。目前预约义的Taxonomy节点以下图所示:app

图3 图谱Taxonomy预约义体系

原子概念节点:组成图谱最小语义单元节点,有独立语义的最小粒度词语,例如网红、狗咖、脸部、补水等。定义的原子概念,所有须要挂靠到定义的Taxonomy节点之上。框架

复合概念节点:由原子概念以及对应属性组合而成的概念节点,例如脸部补水、面部补水等。复合概念须要和其对应的核心词概念创建上下位关系。运维

2.2 图谱四类关系

同义/上下位关系:语义上的同义/上下位关系,例如脸部补水-syn-面部补水等。定义的Taxonomy体系也是一种上下位的关系,因此归并到同义/上下位关系里。

图4 上下位、同义关系示例

概念属性关系:是典型的CPV(Concept-Property-Value)关系,从各个属性维度来描述和定义概念,例如火锅-口味-不辣,火锅-规格-单人等,示例以下:

图5 概念属性关系示例

概念属性关系包含两类。

预约义概念属性:目前咱们预约义典型的概念属性以下:

图6 预约义属性

开放型概念属性:除了咱们本身定义的公共的概念属性外,咱们还从文本中挖掘一些特定的属性词,补充一些特定的属性词。例如,姿式、主题、温馨度、口碑等。

概念承接关系:这类关系主要创建用户搜索概念和美团承接概念之间的连接,例如踏春-场所-植物园,减压-项目-拳击等。

概念承接关系以「事件」为核心,定义了「场所」、「物品」、「人群」、「时间」、「功效」等可以知足用户需求的一类供给概念。以事件“美白”为例,“美白”做为用户的需求,能够有不一样的供给概念可以知足,例如美容院、水光针等。目前,定义的几类承接关系以下图所示:

图7 概念承接关系类型

POI/SPU-概念关系:POI做为美团场景中的实例,实例-概念的关系做为知识图谱中最后的一站,经常是比较能发挥知识图谱在业务上价值的地方。在搜索、推荐等业务场景,最终的目的是可以展现出符合用户需求的POI,因此创建POI/SPU-概念的关系是整个美团场景常识性概念图谱重要的一环,也是比较有价值的数据。

3、常识性概念图谱构建

图谱构建总体框架以下图所示:

图8 概念图谱建设总体工做

3.1 概念挖掘

常识性概念图谱的各类关系都是围绕概念构建,这些概念的挖掘是常识性概念图谱建设的第一环。按照原子概念和复合概念两种类型,分别采起相应的方法进行挖掘。

3.1.1 原子概念挖掘

原子概念候选来自于Query、UGC(User Generated Content)、团单等文本分词后的最小片断,原子概念的判断标准是须要知足流行性、有意义、完整性三个特性的要求。

  1. 流行性,一个概念应是某个或某些语料内流行度较高的词,该特性主要经过频率类特征度量,如“桌本杀”这个词搜索量很低且UGC语料中频率也很低,不知足流行性要求。
  2. 有意义,一个概念应是一个有意义的词,该特性主要经过语义特征度量,如“阿猫”、“阿狗”一般只表一个单纯的名称而无其余实际含义。
  3. 完整性,一个概念应是一个完整的词,该特性主要经过独立检索占比(该词做为Query的搜索量/包含该词的Query的总搜索量)衡量,如“儿童设”是一个错误的分词候选,在UGC中频率较高,但独立检索占比低。

基于原子概念以上的特性,结合人工标注以及规则自动构造的训练数据训练XGBoost分类模型对原子概念是否合理进行判断。

3.1.2 复合概念挖掘

复合概念候选来自于原子概念的组合,因为涉及组合,复合概念的判断比原子概念判断更为复杂。复合概念要求在保证完整语义的同时,在美团站内也要有必定的认知。根据问题的类型,采用Wide&Deep的模型结构,Deep侧负责语义的判断,Wide侧引入站内的信息。

图9 复合概念挖掘的Wide&Deep模型

该模型结构有如下两个特色,对复合概念的合理性进行更准确的判断:

  1. Wide&Deep模型结构:将离散特征与深度模型结合起来判断复合概念是否合理。
  2. Graph Embedding特征:引入词组搭配间的关联信息,如“食品”能够与“人群”、“烹饪方式”、“品质”等进行搭配。

3.2 概念上下位关系挖掘

在获取概念以后,还须要理解一个概念“是什么”,一方面经过人工定义的Taxonomy知识体系中的上下位关系进行理解,另外一方面经过概念间的上下位关系进行理解。

3.2.1 概念-Taxonomy间上下位关系

概念-Taxonomy间上下位关系是经过人工定义的知识体系理解一个概念是什么,因为Taxonomy类型是人工定义好的类型,能够把这个问题转化成一个分类问题。同时,一个概念在Taxonomy体系中可能会有多个类型,如“青柠鱼”既是一种“动物”,也属于“食材”的范畴,因此这里最终把这个问题做为一个Entity Typing的任务来处理,将概念及其对应上下文做为模型输入,并将不一样Taxonomy类别放在同一空间中进行判断,具体的模型结构以下图所示:

图10 BERT Taxonomy关系模型

3.2.2 概念-概念间上下位关系

知识体系经过人工定义的类型来理解一个概念是什么,但人工定义的类型始终是有限的,若是上位词不在人工定义的类型中,这样的上下位关系则没办法理解。如能够经过概念-Taxonomy关系理解“西洋乐器”、“乐器”、“二胡”都是一种“物品”,但没办法获取到“西洋乐器”和“乐器”、“二胡”和“乐器”之间的上下位关系。基于以上的问题,对于概念-概念间存在的上下位关系,目前采起以下两种方法进行挖掘:

基于词法规则的方法:主要解决原子概念和复合概念间的上下位关系,利用候选关系对在词法上的包含关系(如西洋乐器-乐器)挖掘上下位关系。

基于上下文判断的方法:词法规则能够解决在词法上存在包含关系的上下位关系对的判断。对于不存在词法上的包含关系的上下位关系对,如“二胡-乐器”,首先须要进行上下位关系发现,抽取出“二胡-乐器”这样的关系候选,再进行上下位关系判断,判断“二胡-乐器”是一个合理的上下位关系对。考虑到人在解释一个对象时会对这个对象的类型进行相关介绍,如在对“二胡”这个概念进行解释时会提到“二胡是一种传统乐器”,从这样的解释性文本中,既能够将“二胡-乐器”这样的关系候选对抽取出来,也能同时实现这个关系候选对是否合理的判断。这里在上下位关系挖掘上分为候选关系描述抽取以及上下位关系分类两部分:

  1. 候选关系描述抽取:两个概念从属于相同的Taxonomy类型是一个候选概念对是上下位关系对的必要条件,如“二胡”和“乐器”都属于Taxonomy体系中定义的“物品”,根据概念-Taxonomy上下位关系的结果,对于待挖掘上下位关系的概念,找到跟它Taxonomy类型一致的候选概念组成候选关系对,而后在文本中根据候选关系对的共现筛选出用做上下位关系分类的候选关系描述句。
  2. 上下位关系分类:在获取到候选关系描述句后,须要结合上下文对上下位关系是否合理进行判断,这里将两个概念在文中的起始位置和终止位置用特殊标记标记出来,并以两个概念在文中起始位置标记处的向量拼接起来做为二者关系的表示,根据这个表示对上下位关系进行分类,向量表示使用BERT输出的结果,详细的模型结构以下图所示:

图11 BERT上下位关系模型

在训练数据构造上,因为上下位关系表述的句子很是稀疏,大量共现的句子并无明确的表示出候选关系对是否具备上下位关系,利用已有上下位关系采起远程监督方式进行训练数据构建不可行,因此直接使用人工标注的训练集对模型进行训练。因为人工标注的数量比较有限,量级在千级别,这里结合Google的半监督学习算法UDA(Unsupervised Data Augmentation)对模型效果进行提高,最终Precision能够达到90%+,详细指标见表1:

表1 使用UDA在不一样训练数据量下的提高效果

3.3 概念属性关系挖掘

概念含有的属性能够按照属性是否通用划分为公共属性和开放属性。公共属性是由人工定义的、大多数概念都含有的属性,例如价位、风格、品质等。开放属性指某些特定的概念才含有的属性,例如,“植发”、“美睫”和“剧本杀”分别含有开放属性“密度”、“翘度”和“逻辑”。开放属性的数量远远多于公共属性。针对这两种属性关系,咱们分别采用如下两种方式进行挖掘。

3.3.1 基于复合概念挖掘公共属性关系

因为公共属性的通用性,公共属性关系(CPV)中的Value一般和Concept以复合概念的形式组合出现,例如,平价商场、日式料理、红色电影高清。咱们将关系挖掘任务转化为依存分析和细粒度NER任务(可参考《美团搜索中NER技术的探索与实践》一文),依存分析识别出复合概念中的核心实体和修饰成分,细粒度NER判断出具体属性值。例如,给定复合概念「红色电影高清」,依存分析识别出「电影」这个核心概念,「红色」、「高清」是「电影」的属性,细粒度NER预测出属性值分别为「风格(Style)」、「品质评价(高清)」。

依存分析和细粒度NER有能够互相利用的信息,例如“毕业公仔”,「时间(Time)」和「产品(Product))」的实体类型,与「公仔」是核心词的依存信息,能够相互促进训练,所以将两个任务联合学习。可是因为两个任务之间的关联程度并不明确,存在较大噪声,使用Meta-LSTM,将Feature-Level的联合学习优化为Function-Level的联合学习,将硬共享变为动态共享,下降两个任务之间噪声影响。

模型的总体架构以下所示:

图12 依存分析-细粒度NER联合学习模型

目前,概念修饰关系总体准确率在85%左右。

3.3.2 基于开放属性词挖掘特定属性关系

开放属性词和属性值的挖掘

开放属性关系须要挖掘不一样概念特有的属性和属性值,它的难点在于开放属性和开放属性值的识别。经过观察数据发现,一些通用的属性值(例如:好、坏、高、低、多、少),一般和属性搭配出现(例如:环境好、温度高、人流量大)。因此咱们采起一种基于模板的Bootstrapping方法自动从用户评论中挖掘属性和属性值,挖掘流程以下:

图13 开放属性挖掘流程

在挖掘了开放属性词和属性值以后,开放属性关系的挖掘拆分为「概念-属性」二元组的挖掘和「概念-属性-属性值」三元组的挖掘。

概念-属性的挖掘

「概念-属性」二元组的挖掘,即判断概念Concept是否含有属性Property。挖掘步骤以下:

  • 根据概念和属性在UGC中的共现特征,利用TFIDF变种算法挖掘概念对应的典型属性做为候选。
  • 将候选概念属性构造为简单的天然表述句,利用通顺度语言模型判断句子的通顺度,保留通顺度高的概念属性。

概念-属性-属性值的挖掘

在获得「概念-属性」二元组后,挖掘对应属性值的步骤以下:

  • 种子挖掘。基于共现特征和语言模型从UGC中挖掘种子三元组。
  • 模板挖掘。利用种子三元组从UGC中构建合适的模板(例如,“水温是否合适,是选择游泳馆的重要标准。”)。
  • 关系生成。利用种子三元组填充模板,训练掩码语言模型用于关系生成。

图14 概念属性关系生成模型

目前,开放领域的概念属性关系准确率在80%左右。

3.4 概念承接关系挖掘

概念承接关系是创建用户搜索概念和美团承接概念之间的关联。例如,当用户搜索“踏青”时,真正的意图是但愿寻找“适合踏青的地方”,所以平台经过“郊野公园”、“植物园”等概念进行承接。关系的挖掘须要从0到1进行,因此整个概念承接关系挖掘根据不一样阶段的挖掘重点设计了不一样的挖掘算法,能够分为三个阶段:①初期的种子挖掘;②中期的深度判别模型挖掘;③后期的关系补全。详细介绍以下。

3.4.1 基于共现特征挖掘种子数据

为了解决关系抽取任务中的冷启动问题,业界一般采用Bootstrapping的方法,经过人工设定的少许种子和模板,自动从语料中扩充数据。然而,Bootstrapping方法不只受限于模板的质量,并且应用于美团的场景中有着自然缺陷。美团语料的主要来源是用户评论,而用户评论的表述十分口语化及多样化,很难设计通用并且有效的模板。所以,咱们抛弃基于模板的方法,而是根据实体间的共现特征以及类目特征,构建了一个三元对比学习网络,自动从非结构化的文本中挖掘实体关系之间潜在的相关性信息。

具体来讲,咱们观察到不一样商户类目下用户评论中实体的分布差别较大。例如,美食类目下的UGC常常涉及到“聚餐”、“点菜”、“餐厅”;健身类目下的UGC常常涉及到“减肥”、“私教”、“健身房”;而“装修”、“大厅”等通用实体在各个类目下都会出现。所以,咱们构建了三元对比学习网络,使得同类目下的用户评论表示靠近,不一样类目的用户评论表示远离。与Word2Vec等预训练词向量系统相似,经过该对比学习策略获得的词向量层自然蕴含丰富的关系信息。在预测时,对于任意的用户搜索概念,能够经过计算其与全部承接概念之间的语义类似度,辅以搜索业务上的统计特征,获得一批高质量的种子数据。

图15 概念承接关系挖掘的Triplet Network

3.4.2 基于种子数据训练深度模型

预训练语言模型近两年来在NLP领域取得了很大的进展,基于大型的预训练模型微调下游任务,是NLP领域很是流行的作法。所以,在关系挖掘中期,咱们采用基于BERT的关系判别模型(参考《美团BERT的探索和实践》一文),利用BERT预训练时学到的大量语言自己的知识来帮助关系抽取任务。

模型结构以下图所示。首先,根据实体间的共现特征获得候选实体对,召回包含候选实体对的用户评论;而后,沿用MTB论文中的实体标记方法,在两个实体的开始位置和结束位置分别插入特殊的标志符号,通过BERT建模以后,将两个实体开始位置的特殊符号拼接起来做为关系表示;最后,将关系表示输入Softmax层判断实体间是否含有关系。

图16 概念承接关系判别模型

3.4.3 基于已有的图谱结构进行关系补全

经过上述两个阶段,已经从非结构化的文本信息中构建出了一个初具规模的概念承接关系的图谱。可是因为语义模型的局限性,当前图谱中存在大量的三元组缺失。为了进一步丰富概念图谱,补全缺失的关系信息,咱们应用知识图谱连接预测中的TransE算法以及图神经网络等技术,对已有的概念图谱进行补全。

为了充分利用已知图谱的结构信息,咱们采用基于关系的图注意力神经网络(RGAT,Relational Graph Attention Network)来建模图结构信息。RGAT利用关系注意力机制,克服了传统GCN、GAT没法建模边类型的缺陷,更适用于建模概念图谱此类异构网络。在利用RGAT获得实体稠密嵌入以后,咱们使用TransE做为损失函数。TransE将三元组(h,r,t)中的r视为从h到t的翻译向量,并约定h+r≈t。该方法被普遍适用于知识图谱补全任务当中,显示出极强的鲁棒性和可拓展性。

具体细节以下图所示,RGAT中每层结点的特征由邻居结点特征的均值以及邻边特征的均值加权拼接而成,经过关系注意力机制,不一样的结点和边具备不一样的权重系数。在获得最后一层的结点和边特征后,咱们利用TransE做为训练目标,对训练集中的每对三元组(h,r,t),最小化||h+r=t||。在预测时,对于每一个头实体和每种关系,图谱全部结点做为候选尾实体与其计算距离,获得最终的尾实体。

图17 概念承接关系补足图示

目前概念承接关系总体准确率90%左右。

3.5 POI/SPU-概念关系建设

创建图谱概念和美团实例之间的关联,会利用到POI/SPU名称、类目、用户评论等多个维度的信息。创建关联的难点在于如何从多样化的信息中获取与图谱概念相关的信息。所以,咱们经过同义词召回实例下全部与概念语义相关的子句,而后利用判别模型判断概念与子句的关联程度。具体流程以下:

  • 同义词聚类。对于待打标的概念,根据图谱同义词数据,获取概念的多种表述。
  • 候选子句生成。根据同义词聚类的结果,从商户名称、团单名称、用户评论等多个来源中召回候选子句。
  • 判别模型。利用概念-文本关联判别模型(以下图所示)判断概念和子句是否匹配。

图18 概念打标判别模型

  • 打标结果。调整阈值,获得最终的判别结果。

4、应用实践

4.1 到综品类词图谱建设

美团到综业务涵盖知识领域较广,包含亲子、教育、医美、休闲娱乐等,同时每一个领域都包含更多小的子领域,因此针对不一样的领域建设领域内的知识图谱,可以辅助作好搜索召回、筛选、推荐等业务。

在常识性概念图谱中除了常识性概念数据,同时也包含美团场景数据,以及基础算法能力的沉淀,所以能够借助常识性图谱能力,帮助建设到综品类词的图谱数据。

借助常识性图谱,补充欠缺的品类词数据,构建合理的品类词图谱,帮助经过搜索改写,POI打标等方式提高搜索召回。目前在教育领域,图谱规模从起初的1000+节点扩展到2000+,同时同义词从千级别扩展到2万+,取得了不错的效果。

品类词图谱建设流程以下图所示:

图19 到综品类词图谱建设流程

4.2 点评搜索引导

点评搜索SUG推荐,在引导用户认知的同时帮助减小用户完成搜索的时间,提高搜索效率。因此在SUG推荐上须要聚焦两个方面的目标:①帮助丰富用户的认知,从对点评的POI、类目搜索增长天然文本搜索的认知;②精细化用户搜索需求,当用户在搜索一些比较泛的品类词时,帮助细化用户的搜索需求。

在常识性概念图谱中,创建了很丰富的概念以及对应属性及其属性值的关系,经过一个相对比较泛的Query,能够生成对应细化的Query。例如蛋糕,能够经过口味这个属性,产出草莓蛋糕、芝士蛋糕,经过规格这个属性,产出6寸蛋糕、袖珍蛋糕等等。

搜索引导词Query产出示例以下图所示:

图20 推荐Query挖掘示例

4.3 到综医美内容打标

在医美内容展现上,用户一般会对某一特定的医美服务内容感兴趣,因此在产品形态上会提供一些不一样的服务标签,帮助用户筛选精确的医美内容,精准触达用户需求。可是在标签和医美内容进行关联时,关联错误较多,用户筛选后常常看到不符合本身需求的内容。提高打标的准确率可以帮助用户更聚焦本身的需求。

借助图谱的概念-POI打标能力和概念-UGC的打标关系,提高标签-内容的准确率。经过图谱能力打标,在准确率和召回率上均有明显提高。

  • 准确率:经过概念-内容打标算法,相比于关键词匹配,准确率从51%提高到91%。
  • 召回率:经过概念同义挖掘,召回率从77%提高到91%。

图21 医美内容打标效果示例

5、总结与展望

咱们对常识性概念图谱建设工做以及在美团场景中的使用状况进行了详细的介绍。在整个常识性概念图谱中,按照业务须要包含三类节点和四类的关系,分别介绍了概念挖掘算法、不一样种类的关系挖掘算法。

目前,咱们常识性概念图谱有200万+的概念,300万+的概念之间的关系,包含上下位、同义、属性、承接等关系,POI-概念的关系不包含在内。目前,总体关系准确率在90%左右,而且还在不断优化算法,扩充关系的同时提高准确率。后续咱们的常识性概念图谱还会继续完善,但愿可以作到精而全。

参考资料

  • [1] Onoe Y, Durrett G. Interpretable entity representations through large-scale typing[J]. arXiv preprint arXiv:2005.00147, 2020.
  • [2] Bosselut A, Rashkin H, Sap M, et al. Comet: Commonsense transformers for automatic knowledge graph construction[J]. arXiv preprint arXiv:1906.05317, 2019.
  • [3] Soares L B, FitzGerald N, Ling J, et al. Matching the blanks: Distributional similarity for relation learning[J]. arXiv preprint arXiv:1906.03158, 2019.
  • [4] Peng H, Gao T, Han X, et al. Learning from context or names? an empirical study on neural relation extraction[J]. arXiv preprint arXiv:2010.01923, 2020.
  • [5] Jiang, Zhengbao, et al. "How can we know what language models know?." Transactions of the Association for Computational Linguistics 8 (2020): 423-438.
  • [6] Li X L, Liang P. Prefix-Tuning: Optimizing Continuous Prompts for Generation[J]. arXiv preprint arXiv:2101.00190, 2021.
  • [7] Malaviya, Chaitanya, et al. "Commonsense knowledge base completion with structural and semantic context." Proceedings of the AAAI Conference on Artificial Intelligence. Vol. 34. No. 03. 2020.
  • [8] 李涵昱, 钱力, 周鹏飞. "面向商品评论文本的情感分析与挖掘." 情报科学 35.1 (2017): 51-55.
  • [9] 闫波, 张也, 宿红毅 等. 一种基于用户评论的商品属性聚类方法.
  • [10] Wang, Chengyu, Xiaofeng He, and Aoying Zhou. "Open relation extraction for chinese noun phrases." IEEE Transactions on Knowledge and Data Engineering (2019).
  • [11] Li, Feng-Lin, et al. "AliMeKG: Domain Knowledge Graph Construction and Application in E-commerce." Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020.
  • [12] Yang, Yaosheng, et al. "Distantly supervised ner with partial annotation learning and reinforcement learning." Proceedings of the 27th International Conference on Computational Linguistics. 2018.
  • [13] Luo X, Liu L, Yang Y, et al. AliCoCo: Alibaba e-commerce cognitive concept net[C]//Proceedings of the 2020 ACM SIGMOD International Conference on Management of Data. 2020: 313-327.
  • [14] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
  • [15] Cheng H T, Koc L, Harmsen J, et al. Wide & deep learning for recommender systems[C]//Proceedings of the 1st workshop on deep learning for recommender systems. 2016: 7-10.
  • [16] Liu J, Shang J, Wang C, et al. Mining quality phrases from massive text corpora[C]//Proceedings of the 2015 ACM SIGMOD International Conference on Management of Data. 2015: 1729-1744.
  • [17] Shen J, Wu Z, Lei D, et al. Hiexpan: Task-guided taxonomy construction by hierarchical tree expansion[C]//Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018: 2180-2189.
  • [18] Huang J, Xie Y, Meng Y, et al. Corel: Seed-guided topical taxonomy construction by concept learning and relation transferring[C]//Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2020: 1928-1936.
  • [19] Liu B, Guo W, Niu D, et al. A user-centered concept mining system for query and document understanding at tencent[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2019: 1831-1841.
  • [20] Choi E, Levy O, Choi Y, et al. Ultra-fine entity typing[J]. arXiv preprint arXiv:1807.04905, 2018.
  • [21] Xie Q, Dai Z, Hovy E, et al. Unsupervised data augmentation for consistency training[J]. arXiv preprint arXiv:1904.12848, 2019.
  • [22] Mao X, Wang W, Xu H, et al. Relational Reflection Entity Alignment[C]//Proceedings of the 29th ACM International Conference on Information & Knowledge Management. 2020: 1095-1104.
  • [23] Chen J, Qiu X, Liu P, et al. Meta multi-task learning for sequence modeling[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2018, 32(1).

做者简介

宗宇、俊杰、慧敏、福宝、徐俊、谢睿、武威等,均来自美团搜索与NLP部-NLP中心。

招聘信息

美团搜索与NLP部/NLP中心是负责美团人工智能技术研发的核心团队,使命是打造世界一流的天然语言处理核心技术和服务能力,依托NLP(天然语言处理)、Deep Learning(深度学习)、Knowledge Graph(知识图谱)等技术,处理美团海量文本数据,为美团各项业务提供智能的文本语义理解服务。

NLP中心长期招聘天然语言处理算法专家/机器学习算法专家,感兴趣的同窗能够将简历发送至wangzongyu02@meituan.com

| 本文系美团技术团队出品,著做权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至tech@meituan.com申请受权。

阅读美团技术团队更多技术文章合集

前端 | 算法 | 后端 | 数据 | 安全 | 运维 | iOS | Android | 测试

| 在公众号菜单栏对话框回复【2020年货】、【2019年货】、【2018年货】、【2017年货】等关键词,可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品,著做权归属美团。欢迎出于分享和交流等非商业目的转载或使用本文内容,敬请注明“内容转载自美团技术团队”。本文未经许可,不得进行商业性转载或者使用。任何商用行为,请发送邮件至tech@meituan.com申请受权。

相关文章
相关标签/搜索