1. 任务定义、目标和研究意义算法
关系定义为两个或多个实体之间的某种联系,实体关系学习就是自动从文本 中检测和识别出实体之间具备的某种语义关系,也称为关系抽取。关系抽取的输 出一般是一个三元组(实体 1,关系,实体 2)。例如,句子“北京是中国的首都、 政治中心和文化中心”中表述的关系能够表示为(中国,首都,北京),(中国, 政治中心,北京)和(中国,文化中心,北京)。网络
关系抽取是知识图谱构建和信息抽取中的一个关键环节,具备重要的理论意 义和广阔的应用前景,为多种应用提供重要的支持,主要表如今:框架
(1)大规模知识图谱的自动构建。不少互联网应用都须要知识图谱的支撑, 这个知识图谱不只包含 WordNet、HowNet 等常识知识图谱中的通用语义知识, 并且包含百科全书、领域知识图谱中的领域语义知识。若是能把多源异构知识集 成为一个大的知识图谱,将可能提升不少互联网应用系统的性能,并开创语义网 时代的不少应用。现有的知识图谱如 WordNet、HowNet 和 CYC 等大多数依靠专 家人工编撰。随着互联网的发展,知识呈爆炸式增加,人工构建知识图谱特别是 构建领域知识图谱时遇到了很大困难,不只费时费力,并且存在知识覆盖率低、 数据稀疏和更新缓慢等问题。利用关系抽取技术,知识图谱能够根据结构化的抽 取结果自动生成。典型的例子有:Freebase、Yago 和 BDpedia。机器学习
(2)为其它信息获取技术提供支持。函数
(3) 天然语言理解。目前深层的语言理解系统在正确率和性能方面还难以令 人满意,关系抽取是篇章理解的关键技术,运用语言处理技术能够对文本的核心 内容进行理解,所以语义关系抽取的研究将成为从简单的天然语言处理技术到真 正的天然语言理解应用之间的一个重要纽带,能改进天然语言处理领域的不少任 务的性能,如实体连接和机器翻译等。工具
关系抽取系统处理各类非结构化/半结构化的文本输入(如新闻网页、商品 页面、微博、论坛页面等),使用多种技术(如规则方法、统计方法、知识挖掘 方法),识别和发现各类预约义类别和开放类别的关系。根据关系类别是否预约 义,目前关系抽取的核心研究内容能够划分为限定域关系抽取和开放域关系抽取。 如下分别介绍具体的研究内容。 性能
限定域关系抽取。限定域关系抽取是指系统所抽取的关系类别是预先定义好 的,好比知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别通常是 人工定义或者从现有知识图谱中自动获取。因为关系类别已经预先定义,因此一 般能够人工或者基于启发式地规则自动构建标注语料。所以限定域关系抽取中的 主要研究内容是如何利用有监督或弱监督的方法抽取预约义的实体关系知识。在 有监督的方法中主要的研究内容集中在如何挖掘更多能表征相应语义关系的特 征上。在弱监督的方法中主要的研究内容集中在如何下降自动生成语料中的噪声。 学习
开放域关系抽取。开放域关系抽取不预先定义抽取的关系类别,由系统自动 从文本中发现并抽取关系。所以开放域关系抽取也称为开放式关系发现。因为没 有事先定义关系的类别,所以开放域关系发现中利用关系指示词表明关系的类型。 主要的研究内容是如何利用无监督的方法自动的抽取关系三元组。 测试
关系抽取目前主要面临以下三个挑战: 搜索引擎
所谓基于规则的关系抽取方法是指首先由通晓语言学知识的专家根据抽取 任务的要求设计出一些包含词汇、句法和语义特征的手工规则(或称为模式), 而后在文本分析的过程当中寻找与这些模式相匹配的实例,从而推导出实体之间的 语义关系。如 [Fukumoto et al.,1998]依据两个实体之间相关联的特定谓词来判断 它们之间的关系,不过其召回率过低,致使在 MUC-7 测试中 F 指数只有 39.1%。 [Humphreys et al.,1998] 在篇章解释器(Discourse Interpreter)中利用一系列句法 和语义规则识别出实体间的关系,其输入序列来源于增长了语义和指代等信息的 句法分析器。虽然它们的结构较为复杂,但在 MUC-7 的模板任务中 F 指数也分 别只有 23.7 和 54.7。 [Aone et al.,1998] [Aone et al.,2000] 则充分利用语义关系的 局部性特色,在名词短语标注的过程当中识别出短语的中心词和它的修饰词之间可能存在的关系,在 MUC-7 的模板关系任务中取得了 75.6 的最高 F 指数。 基于手工规则的方法须要领域专家构筑大规模的知识库,这不但须要有专业 技能的专家,也须要付出大量劳动,所以这种方法的代价很大。知识库构建完成 后,对于特定的领域的抽取具备较好的准确率,但移植到其余领域十分困难,效 果每每较差。所以这种方法在可移植性方面存在着明显的不足。
按照机器学习方法对语料库的不一样需求大体可分红三大类:无监督关系抽取, 有监督关系抽取、弱监督关系抽取。无监督关系抽取但愿把表示相同关系的模版 聚合起来,不须要人工标注的数据。有监督关系抽取使用人工标注的训练语料进 行训练。有监督关系抽取目前能够取得最好的抽取效果,可是因为其须要费时费 力的人工标注,所以难以扩展到大规模的场景下。所以有学者提出了利用知识库 回标文原本自动得到大量的弱监督数据。目前弱监督关系抽取是关系抽取领域的 一大热点。
3.2.2.1 无监督关系抽取
无监督关系抽取方法主要基于分布假设(Distributional Hypothesis[Harris et al.,1954]理论,分布假设的核心思想是:若是两个词的用法类似及出如今相同上 下文中,那么这两个词就意思相近。相应的,在实体关系抽取中,若是两个实体 对具备类似的语境,那么这两个实体对倾向于具备相同的语义关系,基于此理论, 无监督关系抽取将两个实体的上下文做为表征语义关系的特征。
基于分布假设理论,首先由 [Hasegawa et al.,2004]提出了一种基于无监督学 习的实体关系发现方法,该方法将大量文本中同一实体对的全部上下文收集起来, 并把这些上下文做为表示语义关系的特征,而后采用层次聚类的方法将特征类似 度较高的实体对汇集在一块儿,最后从一个聚类中挑选出频率最高的词做为该类关 系的名称。
[Chen et al.,2005] 对 Hasegawa 的方法进行了改进,他们的方法将每 个实体对的上下文,而不是全部相同实体对的上下文,做为实体之间的语义关系 特征。在聚类时,先采用基于熵的方法对词汇特征进行排序,以提升特征集的空 间搜索效率。最后使用 Discriminative Category Matching(DCM)理论[Fung et al.,2002]来衡量特征在某个聚类中的重要性。无监督关系抽取的核心是选取表示实体之间关系的特征,而后再聚类。上文 介绍的方法主要选取上下文特征,与之不一样的是,
[Bollegala et al.,2010]利用关系 的对偶性(Relation Duality),提出实体对空间和模板空间能够相互表示,基于这 个理论,使用协同聚类来发现实体对及其关系模板的聚类簇,从每一个聚类的簇里 面选择表明性的模板看成此簇对应的关系。另外,无监督关系抽取面临着关系聚 类簇中的多义问题,即同一个模板可能表达不一样的关系,针对此问题,
[Yao et al.,2012]使用主题模型(Topic Model)将实体对及其对应的关系模板分配到不一样 34 的语义类别上,而后再使用聚类的方法将这些语义类别映射到语义关系。 无监督关系抽取方法能够发现新的关系,但其发现的新的关系每每是类似模 板的聚类,其缺点是获得的关系不具语义信息,难以规则化,很难被用来构建知 识库,若是须要获得语义关系,须要经过将其同现有知识库的关系进行对齐,或 者经过人工的方式来给每一个聚类关系簇赋予语义信息。
3.2.2.2 有监督关系抽取
在使用有监督的方法解决关系抽取问题时,通常将关系抽取看做是一个多分 类问题,提取特征向量后再使用有监督的分类器进行关系抽取,有监督的方法性 能较好[Zhou et al.,2005] [Mooney et al.,2006] [Bunescu et al.,2005] ,目前占据主 导地位,研究人员在这方面作了大量的工做。有监督关系抽取能够分为:基于特 征向量的方法、基于核函数的方法和基于神经网络的方法。
基于特征向量的方法特色是须要显式地将关系实例转换成分类器能够接受 的特征向量,其研究重点在于怎样提取具备区分性的特征,经过获取各类有效的 词汇、句法和语义等特征,而后有效地集成起来,从而产生描述关系实例的各类 局部和全局特征。
基于核函数的关系抽取最先由
[Zelenko et al.,2003],他们在文本的浅层句法树的基础上定义了树核函 数,并设计了一个计算树核函数类似度的动态规划算法,而后经过支持向量机 (SVM)和表决感知器(Voted Perceptron)等
[Grishman et al.,2005]分类算法来抽 取实体间语义关系。
[Culotta et al.,2004]提出基于依存树核函数的关系抽取,他们 使用一些依存规则将包含实体对的句法分析树转换成依存树,并在树节点上依次 增长词性、实体类型、词组块、WordNet 上位词等特征,最后使用 SVM 分类器 进行关系抽取。
Mooney 和 Bunescu[Bunescu et al.,2005]进一步使用最短依存树核 函数,该核函数计算在依存树中两个实体之间的最短路径上的相同节点的数目, 要求对于具备相同关系的实体对,其对应的最短依存树具备相同的高度且达到根 节点的路径相同。为解决最短依存树核函数召回率较低的问题,
Bunescu 和 Mooney[Mooney et al.,2006]又提出基于字符串序列核函数的关系抽取,首先提取 出两个实体之间和先后必定数量的单词组成字符串并把其做为关系实例的表达 形式,规定子序列中容许包含间隔项,进而实现关系抽取。
[Zhou et al.,2007]提出 最短路径包含树核,将语义关系实例表示为上下文相关的最短路径包含树,能根 据句法结构动态扩充与上下文相关的谓词部分,并采用上下文相关的核函数计算 方法,即在比较子树类似度时也考虑根结点的祖先结点,将该核函数同基于特征 的方法结合起来,充分考虑结构化信息和平面特征的互补性。然而该类方法依赖 传统的句法分析等复杂的天然语言处理工具,不少语言没有此类工具,即便有的 语言有此类工具可是也会形成偏差传递,影响最终的性能。
近年来,深度学习的方法在有监督关系抽取任务中占据了主导地位。[Zeng et al.,2014] 首先将卷积神经网络应用在了有监督关系抽取任务中。他们主要是应 用了词向量将句子表示成了矩阵,再利用卷积神经网络和 maxpooling 获得句子 的向量表示。最后用 softmax 分类器对该向量进行分类,获得句子的关系类别。 同时期还有 [Thien et al.,2015] [Santos et al.,2015] 等工做也是采用了类似的方法。 还有 [Socher et al.,2012] 利用了长短时记忆网络(LSTM)和句子的依存句法路 径来建模句子的表示,最后再用 softmax 分类器进行分类。为了更好的建模句子, [Zhou et al.,2016] 提出使用双向长短时记忆网络和关注机制。目前大部分学者关 注于如何更好的用深度学习模型建模句子。此类方法通常默认句子中已经标记出 了候选实体,可是实际任务中,须要系统自动发现实体。并且此类方法须要大量 的人工标注的语料做为训练数据才能取得较好的性能。
3.2.2.3 弱监督关系抽取
有监督关系抽取须要大量的标注样本,而人工标注数据费时费力、一致性差, 尤为是面向海量异构的网络数据时,问题就更加明显,为此,研究人员提出弱监督关系抽取。
弱监督关系抽取主要有两种框架:
弱监督回标思想最先由[Craven et al.,1999]提出,主要研究怎样在文本中抽取结构化数据创建生物学知识库(Biological Knowledge Bases),他们利用 Yeast Protein Database 自动产生标注数据,而后训练朴素贝叶斯分类器抽取结构化数据。
紧接着,[Mintz et al.,2009]使用利用 Freebase 做为知识库,将其中的关系实例所包含的实体同维基百科文本中的实体对齐,以此产生训练数据,而后使用逻辑斯谛回归进行关系抽取。弱监督回标主要基于如下假设:若是两个实体在知识库中具备必定的关系,那么根据同时包含这两个实体的句子,就都能推断出实体 对在知识库中具备的关系。因为语言表达的多样性,弱监督的这种假设每每太过 强烈,两个实体出如今同一个句子中并不能表示它们就必定具备某种语义关系, 有可能这两个实体只是属于同一个话题而已[Riedel et al.,2010]。所以,虽然弱监 督方法克服了有监督方法须要人工标注数据的不足,但也带来了新问题——回标 噪声问题。研究人员提出了一系列模型和方法来克服回标噪声问题,Riedel 等将 弱监督关系抽取看做是一个多示例问题,他们的假设中,只须要在回标出来的所 有句子中,有一个句子能表示两个实体间的关系。将全部回标的句子看做一个包, 其中的每个句子就是包中的一个示例,从而解决回标噪声的问题。
[Hoffmann et al.,2011] 更进一步,在多实例模型中考虑实体对间可能不止有一种关系,取得 了更好的效果。
[Surdeanu et al.,2012] 不但对噪声训练数据进行建模,并对实体 对可能属于多个关系类型这个问题进行建模,他们提出了基于几率图模型的多实例多标签模型,在以 Freebase 为知识库和纽约时报做为回标语料的数据上进行 实验,结果代表其模型提高了原始方法的抽取效果。
[Takamatsu et al.,2012] 发 现多示例模型的“至少一句表达真实关系”'的假设有可能失败,其经过抽样统计 显示,Freebase 知识库中 91.7%的实体对在英文维基百科文章中只能回标到一个 句子,此时多示例模型的假设不能成立,他们的工做经过产生式图模型来预测可 能具备噪声的特征模板,而后过滤包含这些模板的正样本,利用剩下的样本训练 抽取模型。利用 Freebase 做为知识库,在 NYU 语料上进行回标,针对 15 类关系选取置信度最高的 50 个结果进行人工评测,平均准确率为 89%。
上述方法都是基于传统特征的,然而传统特征的设计耗时费力,扩展性差。
近些年,基于神经网络的方法占据主导地位。[Zeng et al.,2015] 首先提出了用卷 积神经网络来建模句子,并依据 “至少一个假设” ,将整个学习过程视为多示 例学习。利用 Freebase 做为知识库,在 NYU 语料上进行回标,针对 55 类关系 选取置信度最高的 100 个结果进行人工评测,平均准确率为 86%。 [Ji et al.,2017] [Lin et al.,2016] 认为 [Zeng et al.,2015] 的方法只可以利用包中的一个句子,提 出了使用关注机制,自动学得包中每一个句子的权重,而后将句子的表示按照权重 加权表示为包的表示,最后对包进行分类,获得包的关系。其中 [Ji et al.,2017] 还使用了外部文本信息。 [Jiang et al.,2016] 提出了不一样于 “至少一个” 假设, 他们认为不少状况下,要判断一个包的关系要同时使用多个句子的信息,所以提 出了 Cross-sentence maxpooling 的方法。除此以外,最近有 [Luo et al.,2011] 提 出使用动态矩阵来建模噪声,以此来加强弱监督关系抽取。 [Lin et al.,2017] 还 关注了跨语言的弱监督关系抽取。 目前,基于机器学习的关系抽取方法占据了主导地位。然而,无监督的关系 抽取获得的知识缺少语义信息、很难归一化;有监督关系抽取中须要大量人工标 注的高质量数据做为训练语料,人工标注耗时费力成本高,因此很难大规模推广; 弱监督关系抽取虽然能够自动生成大规模训练语料,可是自动生成训练语料的过 程中须要大规模的已有知识图谱做为种子,并且生成的语料中会有噪音数据。
从 20 世纪 90 年代以来,关系抽取技术研究蓬勃发展,已经成为了天然语言 处理和知识图谱等领域的重要分支。这一方面得益于系列国际权威评测和会议的 推进,如消息理解系列会议(MUC,Message Understanding Conference),自动内容抽取评测(ACE,Automatic Content Extraction)和文本分析会议系列评测(TAC, Text Analysis Conference)。另外一方面也是由于关系抽取技术的重要性和实用性, 使其同时获得了研究界和工业界的普遍关注。关系抽取技术自身的发展也大幅度 推动了中文信息处理研究的发展,迫使研究人员面向实际应用需求,开始重视之 前未被发现的研究难点和重点。纵观关系抽取研究发展的态势和技术现状,咱们 认为关系抽取的发展方向以下:
面向开放域的可语义化的关系抽取技术 目前,绝大部分的关系抽取研究集中预约义的关系抽取上,并致力于构建更 精准的有监督抽取模型和方法,使用标注语料训练模型参数。然而,在构建真实 环境下的关系抽取系统时,这些有监督方法每每存在以下不足:
1)更换语料类 型以后,现有模型每每会有一个大幅度的性能降低;
2)没法抽取目标关系类别 以外的实体关系知识;
3)性能依赖于大规模的训练语料;
4)现有监督模型每每 依赖于高复杂度的天然语言处理应用,如句法分析。
目前已经有不少机构和学者进行开放域的关系抽取的研究,可是目前的方法抽取的关系很难语义化,同一个实体对的同一关系会抽取出不一样的表达,另外不 同的数据来源其质量和可信度不一样,如何整合不一样数据源抽取的关系知识,并将 同一关系的知识进行消歧进而语义化是一个迫切须要解决的问题。
篇章级的关系抽取
现有大多数的关系抽取集中在从包含两个指定实体的一个或者多个句子中 抽取关系,不多有工做将抽取范围扩大到篇章级别。然而,真实环境下,如产品 说明书等,一篇文章会描述多个实体的多个属性或者关系,并且文本中存在大量 的零指代的语言现象,所以必须利用篇章级的信息进行关系和属性值的抽取。
具备时空特性的多元关系抽取 目前,绝大部分的关系抽取研究集中在二元关系抽取上,即抽取目标为三元 组(实体 1,关系,实体 2),然而二元关系很难表达实体关系的时间特性和空间 特性,并且不少关系是多元的,例如:NBA 球星勒布朗詹姆斯效力过的球队。 这就是一个多元关系,首先他效力过的球队有多支,其次效力于每支球队的时间 也不一样,这就是关系的时空性和多元性。具备时空特性的多元关系能建模和表达 更丰富的关系知识,是将来研究的一个方向。 最后,纵观近 30 余年来关系抽取的现状和发展趋势,咱们有理由相信,随 着海量数据资源(如 Web)、大规模深度机器学习技术(如深度学习)和大规模 知识资源(如知识图谱)的蓬勃发展,关系抽取这一极具挑战性同时也极具实用 性的问题将会获得至关程度的解决。同时,随着低成本、高适应性、高可扩展性、 可处理开放域的关系抽取研究的推动,关系抽取技术的实用化和产业化将在现有 的良好基础之上取得进一步的长足发展。