知识图谱文献综述（第四章实体关系学习）

时间 2019-11-20

标签知识图谱文献综述第四实体关系学习繁體版

原文原文链接

1. 任务定义、目标和研究意义算法

　　关系定义为两个或多个实体之间的某种联系，实体关系学习就是自动从文本中检测和识别出实体之间具备的某种语义关系，也称为关系抽取。关系抽取的输出一般是一个三元组(实体 1，关系，实体 2)。例如，句子“北京是中国的首都、政治中心和文化中心”中表述的关系能够表示为（中国，首都，北京），（中国，政治中心，北京）和（中国，文化中心，北京）。网络

　　关系抽取是知识图谱构建和信息抽取中的一个关键环节，具备重要的理论意义和广阔的应用前景，为多种应用提供重要的支持，主要表如今：框架

　　（1）大规模知识图谱的自动构建。不少互联网应用都须要知识图谱的支撑，这个知识图谱不只包含 WordNet、HowNet 等常识知识图谱中的通用语义知识，并且包含百科全书、领域知识图谱中的领域语义知识。若是能把多源异构知识集成为一个大的知识图谱，将可能提升不少互联网应用系统的性能，并开创语义网时代的不少应用。现有的知识图谱如 WordNet、HowNet 和 CYC 等大多数依靠专家人工编撰。随着互联网的发展，知识呈爆炸式增加，人工构建知识图谱特别是构建领域知识图谱时遇到了很大困难，不只费时费力，并且存在知识覆盖率低、数据稀疏和更新缓慢等问题。利用关系抽取技术，知识图谱能够根据结构化的抽取结果自动生成。典型的例子有：Freebase、Yago 和 BDpedia。机器学习

　　（2）为其它信息获取技术提供支持。函数

1. 对信息检索提供支持：能够对复杂的查询进行关联搜索和推理，提供智能检索结果。例如，对于“身高 170 以上的中国射手座明星”，有了关系抽取技术的支持，经过知识图谱构建，就能够经过推理的方法得到结果。图 1 展现了百度搜索引擎对“身高 170 以上的中国射手座明星”查询返回的结果，这个结果的背后就受到大规模知识图谱的支撑。
2. 对问答系统提供支持：在问答中，关键步骤是建设一个领域无关的问答类型体系并找出与问答类型体系中每一个问答类型相对应的答案模式，这就须要关系抽取技术的支持。

　　(3) 天然语言理解。目前深层的语言理解系统在正确率和性能方面还难以令人满意，关系抽取是篇章理解的关键技术，运用语言处理技术能够对文本的核心内容进行理解，所以语义关系抽取的研究将成为从简单的天然语言处理技术到真正的天然语言理解应用之间的一个重要纽带，能改进天然语言处理领域的不少任务的性能，如实体连接和机器翻译等。工具

2. 研究内容和挑战

　　关系抽取系统处理各类非结构化/半结构化的文本输入（如新闻网页、商品页面、微博、论坛页面等），使用多种技术（如规则方法、统计方法、知识挖掘方法），识别和发现各类预约义类别和开放类别的关系。根据关系类别是否预约义，目前关系抽取的核心研究内容能够划分为限定域关系抽取和开放域关系抽取。如下分别介绍具体的研究内容。性能

　　限定域关系抽取。限定域关系抽取是指系统所抽取的关系类别是预先定义好的，好比知识图谱中定义好的关系类别。在限定域关系抽取中关系的类别通常是人工定义或者从现有知识图谱中自动获取。因为关系类别已经预先定义，因此一般能够人工或者基于启发式地规则自动构建标注语料。所以限定域关系抽取中的主要研究内容是如何利用有监督或弱监督的方法抽取预约义的实体关系知识。在有监督的方法中主要的研究内容集中在如何挖掘更多能表征相应语义关系的特征上。在弱监督的方法中主要的研究内容集中在如何下降自动生成语料中的噪声。学习

　　开放域关系抽取。开放域关系抽取不预先定义抽取的关系类别，由系统自动从文本中发现并抽取关系。所以开放域关系抽取也称为开放式关系发现。因为没有事先定义关系的类别，所以开放域关系发现中利用关系指示词表明关系的类型。主要的研究内容是如何利用无监督的方法自动的抽取关系三元组。测试

　　关系抽取目前主要面临以下三个挑战：搜索引擎

天然语言表达的多样性：关系抽取的核心是将天然语言表达的关系知识映射到关系三元组上。然而，天然语言表达具备多样性和隐含性，致使关系抽取任务极具挑战性。天然语言表达的多样性指的是同一种关系能够有多种表达方式，例如“总部位置”这个语义关系能够用“X 的总部位于 Y”，“X 总部坐落于 Y”，“做为 X 的总部所在地，Y…” 等等不一样的文本表达方式。天然语言表达的多样性是关系抽取的一大挑战。
　关系表达的隐含性：关系表达的隐含性是指关系有时候在文本中找不到任何明确的标识，关系隐含在文本中。例如：蒂姆·库克与中国移动董事长奚国华会面商谈“合做事宜”，透露出了他将带领苹果公司进一步开拓中国市场的讯号。在这一段文本中，并没有直接给出蒂姆·库克和苹果公司的关系，可是从“带领苹果公司”的表达，咱们能够推断出蒂姆·库克是苹果公司的首席执行官(CEO)。关系表达的隐含性是关系抽取的一大挑战。
实体关系的复杂性：关系抽取的目标是抽取实体之间的语义关系，然而，真实世界中同一对实体之间可能有多个关系，并且有的关系能够同时存在，而有的关系是具备时间特性的。好比：中国和北京的关系有多个，北京坐落于中国，北京是中国的首都，北京是中国的政治中心，北京是中国的文化中心。这些关系是能够同时存在的。但是若是两我的原本是夫妻关系，后来离婚了，他们就不是夫妻关系了，是前妻或者前夫的关系，这个类关系具备时空性，不能单独存在，实体关系的复杂性是关系抽取的又一挑战。

3.2 基于规则的关系抽取和基于机器学习的关系抽取

3.2.1 基于规则的关系抽取

　　所谓基于规则的关系抽取方法是指首先由通晓语言学知识的专家根据抽取任务的要求设计出一些包含词汇、句法和语义特征的手工规则（或称为模式），而后在文本分析的过程当中寻找与这些模式相匹配的实例，从而推导出实体之间的语义关系。如 [Fukumoto et al.,1998]依据两个实体之间相关联的特定谓词来判断它们之间的关系，不过其召回率过低，致使在 MUC-7 测试中 F 指数只有 39.1%。 [Humphreys et al.,1998] 在篇章解释器（Discourse Interpreter）中利用一系列句法和语义规则识别出实体间的关系，其输入序列来源于增长了语义和指代等信息的句法分析器。虽然它们的结构较为复杂，但在 MUC-7 的模板任务中 F 指数也分别只有 23.7 和 54.7。 [Aone et al.,1998] [Aone et al.,2000] 则充分利用语义关系的局部性特色，在名词短语标注的过程当中识别出短语的中心词和它的修饰词之间可能存在的关系，在 MUC-7 的模板关系任务中取得了 75.6 的最高 F 指数。基于手工规则的方法须要领域专家构筑大规模的知识库，这不但须要有专业技能的专家，也须要付出大量劳动，所以这种方法的代价很大。知识库构建完成后，对于特定的领域的抽取具备较好的准确率，但移植到其余领域十分困难，效果每每较差。所以这种方法在可移植性方面存在着明显的不足。

3.2.2 基于机器学习的关系抽取

　　按照机器学习方法对语料库的不一样需求大体可分红三大类：无监督关系抽取，有监督关系抽取、弱监督关系抽取。无监督关系抽取但愿把表示相同关系的模版聚合起来，不须要人工标注的数据。有监督关系抽取使用人工标注的训练语料进行训练。有监督关系抽取目前能够取得最好的抽取效果，可是因为其须要费时费力的人工标注，所以难以扩展到大规模的场景下。所以有学者提出了利用知识库回标文原本自动得到大量的弱监督数据。目前弱监督关系抽取是关系抽取领域的一大热点。

3.2.2.1 无监督关系抽取

　　无监督关系抽取方法主要基于分布假设（Distributional Hypothesis[Harris et al.,1954]理论，分布假设的核心思想是：若是两个词的用法类似及出如今相同上下文中，那么这两个词就意思相近。相应的，在实体关系抽取中，若是两个实体对具备类似的语境，那么这两个实体对倾向于具备相同的语义关系，基于此理论，无监督关系抽取将两个实体的上下文做为表征语义关系的特征。

　　基于分布假设理论，首先由 [Hasegawa et al.,2004]提出了一种基于无监督学习的实体关系发现方法，该方法将大量文本中同一实体对的全部上下文收集起来，并把这些上下文做为表示语义关系的特征，而后采用层次聚类的方法将特征类似度较高的实体对汇集在一块儿，最后从一个聚类中挑选出频率最高的词做为该类关系的名称。

　　[Chen et al.,2005] 对 Hasegawa 的方法进行了改进，他们的方法将每个实体对的上下文，而不是全部相同实体对的上下文，做为实体之间的语义关系特征。在聚类时，先采用基于熵的方法对词汇特征进行排序，以提升特征集的空间搜索效率。最后使用 Discriminative Category Matching（DCM）理论[Fung et al.,2002]来衡量特征在某个聚类中的重要性。无监督关系抽取的核心是选取表示实体之间关系的特征，而后再聚类。上文介绍的方法主要选取上下文特征，与之不一样的是，

　　[Bollegala et al.,2010]利用关系的对偶性（Relation Duality），提出实体对空间和模板空间能够相互表示，基于这个理论，使用协同聚类来发现实体对及其关系模板的聚类簇，从每一个聚类的簇里面选择表明性的模板看成此簇对应的关系。另外，无监督关系抽取面临着关系聚类簇中的多义问题，即同一个模板可能表达不一样的关系，针对此问题，

　　[Yao et al.,2012]使用主题模型（Topic Model）将实体对及其对应的关系模板分配到不一样 34 的语义类别上，而后再使用聚类的方法将这些语义类别映射到语义关系。无监督关系抽取方法能够发现新的关系，但其发现的新的关系每每是类似模板的聚类，其缺点是获得的关系不具语义信息，难以规则化，很难被用来构建知识库，若是须要获得语义关系，须要经过将其同现有知识库的关系进行对齐，或者经过人工的方式来给每一个聚类关系簇赋予语义信息。

3.2.2.2 有监督关系抽取

　　在使用有监督的方法解决关系抽取问题时，通常将关系抽取看做是一个多分类问题，提取特征向量后再使用有监督的分类器进行关系抽取，有监督的方法性能较好[Zhou et al.,2005] [Mooney et al.,2006] [Bunescu et al.,2005] ，目前占据主导地位，研究人员在这方面作了大量的工做。有监督关系抽取能够分为：基于特征向量的方法、基于核函数的方法和基于神经网络的方法。

　　基于特征向量的方法特色是须要显式地将关系实例转换成分类器能够接受的特征向量，其研究重点在于怎样提取具备区分性的特征，经过获取各类有效的词汇、句法和语义等特征，而后有效地集成起来，从而产生描述关系实例的各类局部和全局特征。

文献[Kambhatla et al.,2004]中的方法综合考虑实体自己、实体类型、依存树和解析树等特征，而后使用最大熵分类器判断实体间的关系。[Zhao et al.,2005]进一步将这些特征按照实体属性、二元属性、依存路径等类别进行划分。
[Zhou et al.,2005]系统地研究了如何把包括基本词组块（Chunk）在内的各类特征组合起来，探讨了各类语言特征对关系抽取性能的贡献，特别研究了 WordNet 和 Name List 等语义信息的影响。
[Wang et al.,2006]又进一步加入了从句子的简化准逻辑形式（SQLF，Simplified Quasi Logical Form）导出的谓词语义属性，该属性定义了链接两个实体之间路径上的谓词序列，而且使用了多达 94 种语言特征。
[Jiang et al.,2007]经过统一的特征空间表达形式来研究不一样特征对关系抽取性能的影响，其中特征空间可划分为序列、句法树和依存树等特征子空间。实验结果代表，从三个子空间中提取出的基本单元特征能取得较好的性能，而再加入复杂的特征所带来的性能提高很小，只有当不一样子空间和不一样复杂度的特征结合起来时，才能取得最好的性能。基于特征向量的方法尽管速度很快，也比较有效，但其缺点是在转换结构化特征时须要显式地给出一个特征集合，因为实体间语义关系表达的复杂性和可变性，要进一步提升关系抽取的性能已经很困难了，由于很难再找出适合语义关系抽取的新的有效的词汇、句法或语义特征。不一样于特征向量的方法，基于核函数的方法不须要构造固有的特征向量空间，能很好地弥补基于特征向量方法的不足。在关系抽取中，基于核函数的方法直接以结构树为处理对象，在计算关系之间的距离的时候再也不使用特征向量的内积而是用核函数，核函数能够在高维的特征空间中隐式地计算对象之间的距离，不用枚举全部的特征也能够计算向量的点积，表示实体关系很灵活，能够方便地利用多种不一样的特征，使用支持核函数的分类器进行关系抽取。

　　基于核函数的关系抽取最先由

　　[Zelenko et al.,2003]，他们在文本的浅层句法树的基础上定义了树核函数，并设计了一个计算树核函数类似度的动态规划算法，而后经过支持向量机（SVM）和表决感知器（Voted Perceptron）等

　　[Grishman et al.,2005]分类算法来抽取实体间语义关系。

　　[Culotta et al.,2004]提出基于依存树核函数的关系抽取，他们使用一些依存规则将包含实体对的句法分析树转换成依存树，并在树节点上依次增长词性、实体类型、词组块、WordNet 上位词等特征，最后使用 SVM 分类器进行关系抽取。

　　Mooney 和 Bunescu[Bunescu et al.,2005]进一步使用最短依存树核函数，该核函数计算在依存树中两个实体之间的最短路径上的相同节点的数目，要求对于具备相同关系的实体对，其对应的最短依存树具备相同的高度且达到根节点的路径相同。为解决最短依存树核函数召回率较低的问题，

　　Bunescu 和 Mooney[Mooney et al.,2006]又提出基于字符串序列核函数的关系抽取，首先提取出两个实体之间和先后必定数量的单词组成字符串并把其做为关系实例的表达形式，规定子序列中容许包含间隔项，进而实现关系抽取。

　　[Zhou et al.,2007]提出最短路径包含树核，将语义关系实例表示为上下文相关的最短路径包含树，能根据句法结构动态扩充与上下文相关的谓词部分，并采用上下文相关的核函数计算方法，即在比较子树类似度时也考虑根结点的祖先结点，将该核函数同基于特征的方法结合起来，充分考虑结构化信息和平面特征的互补性。然而该类方法依赖传统的句法分析等复杂的天然语言处理工具，不少语言没有此类工具，即便有的语言有此类工具可是也会形成偏差传递，影响最终的性能。

　　近年来，深度学习的方法在有监督关系抽取任务中占据了主导地位。[Zeng et al.,2014] 首先将卷积神经网络应用在了有监督关系抽取任务中。他们主要是应用了词向量将句子表示成了矩阵，再利用卷积神经网络和 maxpooling 获得句子的向量表示。最后用 softmax 分类器对该向量进行分类，获得句子的关系类别。同时期还有 [Thien et al.,2015] [Santos et al.,2015] 等工做也是采用了类似的方法。还有 [Socher et al.,2012] 利用了长短时记忆网络（LSTM）和句子的依存句法路径来建模句子的表示，最后再用 softmax 分类器进行分类。为了更好的建模句子， [Zhou et al.,2016] 提出使用双向长短时记忆网络和关注机制。目前大部分学者关注于如何更好的用深度学习模型建模句子。此类方法通常默认句子中已经标记出了候选实体，可是实际任务中，须要系统自动发现实体。并且此类方法须要大量的人工标注的语料做为训练数据才能取得较好的性能。

3.2.2.3 弱监督关系抽取

　　有监督关系抽取须要大量的标注样本，而人工标注数据费时费力、一致性差，尤为是面向海量异构的网络数据时，问题就更加明显，为此，研究人员提出弱监督关系抽取。

　　弱监督关系抽取主要有两种框架：

一种是使用半监督学习和主动学习等技术以尽量少的代价提高抽取效果，如[Sun et al.,2011]经过大规模的词聚类做为额外的特征，以解决实体之间特征过于泛化的问题，从而帮助关系抽取； [Sun et al.,2012]利用主动学习的技术，经过少许的标注数据来发现分类面附近的未标注数据，对这些数据进行人工标注，从而以更少的标注代价得到更好的抽取效果。
一种框架是使用回标的思想，利用现有知识库中的关系三元组，自动回标三元组中实体所在的文本做为训练数据，因为其训练数据产生过程不须要人工标注，因此这种方法代价很低，更加适合大规模多领域的网络文本，它在信息抽取领域近年来获得较普遍的应用。

　　弱监督回标思想最先由[Craven et al.,1999]提出，主要研究怎样在文本中抽取结构化数据创建生物学知识库（Biological Knowledge Bases），他们利用 Yeast Protein Database 自动产生标注数据，而后训练朴素贝叶斯分类器抽取结构化数据。

　　紧接着，[Mintz et al.,2009]使用利用 Freebase 做为知识库，将其中的关系实例所包含的实体同维基百科文本中的实体对齐，以此产生训练数据，而后使用逻辑斯谛回归进行关系抽取。弱监督回标主要基于如下假设：若是两个实体在知识库中具备必定的关系，那么根据同时包含这两个实体的句子，就都能推断出实体对在知识库中具备的关系。因为语言表达的多样性，弱监督的这种假设每每太过强烈，两个实体出如今同一个句子中并不能表示它们就必定具备某种语义关系，有可能这两个实体只是属于同一个话题而已[Riedel et al.,2010]。所以，虽然弱监督方法克服了有监督方法须要人工标注数据的不足，但也带来了新问题——回标噪声问题。研究人员提出了一系列模型和方法来克服回标噪声问题，Riedel 等将弱监督关系抽取看做是一个多示例问题，他们的假设中，只须要在回标出来的所有句子中，有一个句子能表示两个实体间的关系。将全部回标的句子看做一个包，其中的每个句子就是包中的一个示例，从而解决回标噪声的问题。

　　[Hoffmann et al.,2011] 更进一步，在多实例模型中考虑实体对间可能不止有一种关系，取得了更好的效果。

　　[Surdeanu et al.,2012] 不但对噪声训练数据进行建模，并对实体对可能属于多个关系类型这个问题进行建模，他们提出了基于几率图模型的多实例多标签模型，在以 Freebase 为知识库和纽约时报做为回标语料的数据上进行实验，结果代表其模型提高了原始方法的抽取效果。

　　[Takamatsu et al.,2012] 发现多示例模型的“至少一句表达真实关系”'的假设有可能失败，其经过抽样统计显示，Freebase 知识库中 91.7%的实体对在英文维基百科文章中只能回标到一个句子，此时多示例模型的假设不能成立，他们的工做经过产生式图模型来预测可能具备噪声的特征模板，而后过滤包含这些模板的正样本，利用剩下的样本训练抽取模型。利用 Freebase 做为知识库，在 NYU 语料上进行回标，针对 15 类关系选取置信度最高的 50 个结果进行人工评测，平均准确率为 89%。

　　上述方法都是基于传统特征的，然而传统特征的设计耗时费力，扩展性差。

　　近些年，基于神经网络的方法占据主导地位。[Zeng et al.,2015] 首先提出了用卷积神经网络来建模句子，并依据 “至少一个假设” ，将整个学习过程视为多示例学习。利用 Freebase 做为知识库，在 NYU 语料上进行回标，针对 55 类关系选取置信度最高的 100 个结果进行人工评测，平均准确率为 86%。 [Ji et al.,2017] [Lin et al.,2016] 认为 [Zeng et al.,2015] 的方法只可以利用包中的一个句子，提出了使用关注机制，自动学得包中每一个句子的权重，而后将句子的表示按照权重加权表示为包的表示，最后对包进行分类，获得包的关系。其中 [Ji et al.,2017] 还使用了外部文本信息。 [Jiang et al.,2016] 提出了不一样于 “至少一个” 假设，他们认为不少状况下，要判断一个包的关系要同时使用多个句子的信息，所以提出了 Cross-sentence maxpooling 的方法。除此以外，最近有 [Luo et al.,2011] 提出使用动态矩阵来建模噪声，以此来加强弱监督关系抽取。 [Lin et al.,2017] 还关注了跨语言的弱监督关系抽取。目前，基于机器学习的关系抽取方法占据了主导地位。然而，无监督的关系抽取获得的知识缺少语义信息、很难归一化；有监督关系抽取中须要大量人工标注的高质量数据做为训练语料，人工标注耗时费力成本高，因此很难大规模推广；弱监督关系抽取虽然能够自动生成大规模训练语料，可是自动生成训练语料的过程中须要大规模的已有知识图谱做为种子，并且生成的语料中会有噪音数据。

4. 技术展望与发展趋势

　　从 20 世纪 90 年代以来，关系抽取技术研究蓬勃发展，已经成为了天然语言处理和知识图谱等领域的重要分支。这一方面得益于系列国际权威评测和会议的推进，如消息理解系列会议（MUC，Message Understanding Conference），自动内容抽取评测（ACE，Automatic Content Extraction）和文本分析会议系列评测（TAC， Text Analysis Conference）。另外一方面也是由于关系抽取技术的重要性和实用性，使其同时获得了研究界和工业界的普遍关注。关系抽取技术自身的发展也大幅度推动了中文信息处理研究的发展，迫使研究人员面向实际应用需求，开始重视之前未被发现的研究难点和重点。纵观关系抽取研究发展的态势和技术现状，咱们认为关系抽取的发展方向以下：

　　面向开放域的可语义化的关系抽取技术 目前，绝大部分的关系抽取研究集中预约义的关系抽取上，并致力于构建更精准的有监督抽取模型和方法，使用标注语料训练模型参数。然而，在构建真实环境下的关系抽取系统时，这些有监督方法每每存在以下不足：

1）更换语料类型以后，现有模型每每会有一个大幅度的性能降低；

2）没法抽取目标关系类别以外的实体关系知识；

3）性能依赖于大规模的训练语料；

4）现有监督模型每每依赖于高复杂度的天然语言处理应用，如句法分析。

　　目前已经有不少机构和学者进行开放域的关系抽取的研究，可是目前的方法抽取的关系很难语义化，同一个实体对的同一关系会抽取出不一样的表达，另外不同的数据来源其质量和可信度不一样，如何整合不一样数据源抽取的关系知识，并将同一关系的知识进行消歧进而语义化是一个迫切须要解决的问题。

　　篇章级的关系抽取

　　现有大多数的关系抽取集中在从包含两个指定实体的一个或者多个句子中抽取关系，不多有工做将抽取范围扩大到篇章级别。然而，真实环境下，如产品说明书等，一篇文章会描述多个实体的多个属性或者关系，并且文本中存在大量的零指代的语言现象，所以必须利用篇章级的信息进行关系和属性值的抽取。