知识表示是知识获取与应用的基础,所以知识表示学习问题,是贯穿知识库 的构建与应用全过程的关键问题。人们一般以网络的形式组织知识库中的知识, 网络中每一个节点表明实体(人名、地名、机构名、概念等),而每条连边则表明 实体间的关系。然而,基于网络形式的知识表示面临诸多挑战性难题,主要包括 以下两个方面:算法
(1)计算效率问题。基于网络的知识表示形式中,每一个实体均用不一样的节 点表示。当利用知识库计算实体间的语义或推理关系时,每每须要人们设计专门 的图算法来实现,存在可移植性差的问题。更重要的,基于图的算法计算复杂度 高,可扩展性差,当知识库规模达到必定规模时,就很难较好地知足实时计算的 需求。网络
(2)数据稀疏问题。与其余类型的大规模数据相似,大规模知识库也遵照 长尾分布,在长尾部分的实体和关系上,面临严重的数据稀疏问题。例如,对于 长尾部分的罕见实体,因为只有极少的知识或路径涉及它们,对这些实体的语义 或推理关系的计算每每准确率极低。dom
近年来,以深度学习[Bengio, et al., 2009]为表明的表示学习[Bengio, et al., 2013]技术异军突起,在语音识别、图像分析和天然语言处理领域得到普遍关注。 表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空 间中,两个对象距离越近,则说明其语义类似度越高。 知识表示学习,则是面向知识库中的实体和关系进行表示学习。知识表示学 习实现了对实体和关系的分布式表示,它具备如下主要优势:分布式
(1)显著提高计算效率。知识库的三元组表示实际就是基于独热表示的。 如前所分析的,在这种表示方式下,须要设计专门的图算法计算实体间的语义和 推理关系,计算复杂度高,可扩展性差。而表示学习获得的分布式表示,则可以 高效地实现语义类似度计算等操做,显著提高计算效率。函数
(2)有效缓解数据稀疏。因为表示学习将对象投影到统一的低维空间中, 使每一个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要体如今两 个方面。一方面,每一个对象的向量均为稠密有值的,所以能够度量任意对象之间 的语义类似程度。另外一方面,将大量对象投影到统一空间的过程,可以将高频对 象的语义信息用于帮助低频对象的语义表示,提升低频对象的语义表示的精确性。性能
(3)实现异质信息融合。不一样来源的异质信息须要融合为总体,才能获得 有效应用。例如,人们构造了大量知识库,这些知识库的构建规范和信息来源均有不一样,例如著名的世界知识库有 DBPedia、YAGO、Freebase 等。大量实体和 关系在不一样知识库中的名称不一样。如何实现多知识库的有机融合,对知识库应用 具备重要意义。经过设计合理的表示学习模型,将不一样来源的对象投影到同一个 语义空间中,就可以创建统一的表示空间,实现多知识库的信息融合。此外,当 咱们在信息检索或天然语言处理中应用知识库时,每每须要计算查询词、句子、 文档和知识库实体之间的复杂语义关联。因为这些对象的异质性,在往常是棘手 问题。而知识表示学习亦能为此提供统一表示空间,垂手可得实现异质对象之间 的语义关联计算。学习
综上,因为知识表示学习可以显著提高计算效率,有效缓解数据稀疏,实现 异质信息融合,所以对于知识库的构建、推理和应用具备重要意义,值得广受关 注、深刻研究。优化
知识表示学习是面向知识库中实体和关系的表示学习。经过将实体或关系投 影到低维向量空间,咱们可以实现对实体和关系的语义信息的表示,能够高效地 计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应用均有 重要意义。目前,已经在知识图谱补全、关系抽取等任务中取得了瞩目成果。但 是,知识表示学习仍然面临不少挑战。人工智能
现有知识表示学习方法没法有效地处理知识图谱中的复杂关系。这里的复杂 关系定义以下。按照知识库中关系两端链接实体的数目,能够将关系划分为 1-一、 1-N、N-1 和 N-N 四种类型。例如 N-1 类型关系指的是,该类型关系中的一个尾 实体会平均对应多个头实体,即咱们将 1-N、N-1 和 N-N 称为复杂关系。研究发 现,各类知识获取算法在处理四种类型关系时的性能差别较大,在处理复杂关系 时性能显著下降。如何实现表示学习对复杂关系的建模成为知识表示学习的一个 难点。spa
知识表示学习面临的另一个重要挑战如何实现多源信息融合。现有的知识 表示学习模型仅利用知识图谱的三元组结构信息进行表示学习,尚有大量与知识 有关的其余信息没有获得有效利用,例如: (1)知识库中的其余信息,如实体和关系的描述信息、类别信息等; (2)知识库外的海量信息,如互联网文本蕴含了大量与知识库实体和关系 有关的信息。 如何充分融合这些多源异质信息,实现知识表示学习,具备重要意义,可改善数据稀疏问题,提升知识表示的区分能力。
在知识图谱中,多步的关系路径也可以反映实体之间的语义关系。Lao 等人 曾提出 Path-Constraint Random Walk[Lao, et al., 2010]、Path Ranking Algorithm[Lao, et al., 2010]等算法,利用两实体间的关系路径信息,预测它们的关系,取得显著 效果,说明关系路径蕴含着丰富的信息。如何突破知识表示学习孤立学习每一个三 元组的局限性,充分考虑关系路径信息是知识表示学习的关键问题。
知识表示学习是近年来的研究热点,研究者提出了多种模型,学习知识库中 的实体和关系的表示。本节将主要介绍其中的表明方法。
结构表示[Bordes, et al. 2011](Structured Embedding,SE)是较早的几个知 识表示方法之一。对于一个事实三元组,SE 将头实体向量和尾实体向量经过关系的两个矩阵投影到关系的对应空间中,而后在该空间中计算两投影向量的距离。 这个距离反映了两个实体在该关系下的语义相关度,它们的距离越小,说明这两 个实体存在这种关系。然而,SE 模型有一个重要缺陷:它对头、尾实体使用两 个不一样的矩阵进行投影,协同性较差,每每没法精确刻画两实体与关系之间的语 义联系。
所以,单层神经网络模型[Socher, et al. 2013](Single Layer Model, SLM) 尝试采用单层神经网络的非线性操做,来减轻 SE 没法协同精确刻画实体与关系 的语义联系的问题。虽然 SLM 是 SE 模型的改进版本,可是它的非线性操做仅 提供了实体和关系之间比较微弱的联系。与此同时,却引入了更加高的计算复杂度。
此外,语义匹配能量模型[Bordes, et al., 2012; Bordes, et al., 2014](Semantic Matching Energy,SME)提出更复杂的操做,寻找实体和关系之间的语义联系。 在 SME 中,每一个实体和关系都用低维向量表示。在此基础上,SME 定义若干投 影矩阵,利用双线性函数来刻画实体与关系的内在联系。
一样利用双线性函数的 还有隐变量模型[Sutskever, et al., 2009; Jenatton, et al., 2012(] Latent Factor Model, LFM),该模型提出利用基于关系的双线性变换,刻画实体和关系之间的二阶联 系。与以往模型相比,LFM 取得巨大突破:经过简单有效的方法刻画了实体和 关系的语义联系,协同性较好,计算复杂度低。
后来的 DISTMULT 模型[Yang, et al., 2015]还探索了 LFM 的简化形式:将关系矩阵设置为对角阵。实验代表,这 种简化不只极大下降了模型复杂度,模型效果还获得显著提高。
在 LFM 的基础 上,张量神经网络模型[Socher, et al. 2013](Neural Tensor Network,NTN)进一 步利用关系的双线性变换来刻画实体与关系之间的联系,其基本思想是用双线性 张量取代传统神经网络中的线性变换层,在不一样的维度下将头、尾实体向量联系 起来。因为 NTN 引入了张量操做,虽然可以更精确地刻画实体和关系的复杂语义联系,可是计算复杂度很是高,须要大量三元组样例才能获得成分学习。实验 代表,NTN 在大规模稀疏知识图谱上的效果较差。
此外,矩阵分解一样是是得 到低维向量表示的重要途径。所以,也有研究者提出采用矩阵分解进行知识表示 学习。这方面的表明方法是 RESACL模型[Nickel, et al., 2011; Nickel, et al., 2012]。 RESACL 的基本思想与前述 LFM 相似。不一样之处在于,RESACL 会优化张量中 的全部位置,包括值为 0 的位置;而 LFM 只会优化知识库中存在的三元组。
最近,Bordes 等人受到词向量空间对于词汇语义与句法关系存在有趣的平移 不变现象的启发,提出了 TransE 模型[Bordes, et al., 2013],将知识库中的关系看 做实体间的某种平移向量。与以往模型相比,TransE 模型参数较少,计算复杂度 低,却能直接创建实体和关系之间的复杂语义联系。Bordes 等人在 WordNet 和 Freebase 等数据集上进行连接预测等评测任务,实验代表 TransE 的性能较以往 模型有显著提高。特别是在大规模稀疏知识图谱上,TransE 的性能尤为惊人。由 于 TransE 简单有效,自提出以来,有大量研究工做对 TransE 进行扩展和应用。 能够说,TransE 已经成为知识表示学习的表明模型。在 TransE 的基础上,研究 者提出了众多改进模型来解决 TransE 中仍没法处理的问题。
TransE 因为模型简单,在大规模知识图谱上效果明显。可是也因为过于简单, 致使 TransE 在处理前面提到的知识库的复杂关系时捉襟见肘。例如,假如知识 库中有两个三元组,分别是(美国, 总统, 奥巴马)和(美国, 总统, 布什)。这里的 关系“总统”是典型的 1-N 的复杂关系。若是用 TransE 从这两个三元组学习知识 表示,将会使奥巴马和布什的向量变得相同。
为了解决 TransE 模型在处理 1-N、N-一、N-N 复杂关系时的局限性,TransH 模型[Wang, et al., 2014]提出让一个实体在不一样的关系下拥有不一样的表示。
TransR 模型[Lin, et al., 2015]进一步认为不一样的关系拥有不一样的语义空间。对每一个三元 组,首先应将实体利用矩阵投影到对应的关系空间中,而后再创建从头实体到尾 实体的翻译关系。
针对在知识库中实体的异质性和不平衡性,还有 TransR 模型 中矩阵参数过多的问题,TransD 模型[Ji, et al., 2015]和 TranSparse 模型[18]对 TransR 模型中的投影矩阵进行了进一步的优化。
此外,TransG 模型[Xiao, et al., 2015]和 KG2E 模型[He, et al. 2015]提出了利用高斯分布来表示知识库中的实体 和关系,能够在表示过程当中考虑实体和关系自己语义上的不肯定性。
能够看到, 在TransE以后,在如何处理复杂关系建模的挑战问题上,提出了TransH、TransR、 TransD、TranSparse、TransG 和 KG2E 等多种模型,从不一样角度尝试解决复杂关 系建模问题,可谓百花齐放。在相关数据集合上的实验代表,这些方法均较 TransE 有显著的性能提高,验证了这些方法的有效性。
知识表示学习面临的另一个重要挑战如何实现多源信息融合。现有的知识 表示学习模型如 TransE 等,仅利用知识图谱的三元组结构信息进行表示学习, 尚有大量与知识有关的其余信息没有获得有效利用。如何充分融合这些多源异质 信息,实现知识表示学习,具备重要意义,能够改善数据稀疏问题,提升知识表 示的区分能力。 在融合上述信息进行知识表示学习方面,已经有一些研究工做,但整体来说 还处于起步状态,这里简单介绍其中几个表明性工做。
考虑实体描述的知识表示学习模型(Description- Embodied Knowledge Representation Learning,DKRL)[Xie, et al., 2016]。DKRL 模型提出在知识表示学习中考虑 Freebase 等知识库中提供的 实体描述文本信息。在文本表示方面,DKRL 考虑了两种模型:
DKRL 的优点在于,除了可以提高实体表示的区分能力外,还能 实现对新实体的表示。当新出现一个不曾在知识库中的实体时,DKRL 能够根据 它的简短描述产生它的实体表示,用于知识图谱补全等任务。这对于不断扩充知 识图谱具备重要意义。 此外,Wang 等人提出在表示学习中考虑文本数据,利用 word2vec 学习维基 百科正文中的词表示,利用 TransE 学习知识库中的知识表示。而后利用维基百 科正文中的连接信息(锚文本与实体的对应关系),让文本中实体对应的词表示 与知识库中的实体表示尽量接近,从而实现文本与知识库融合的表示学习。 Zhong 等人还将相似的想法用于融合实体描述信息[Zhong, et al., 2015]。 已有工做代表,多源信息融合可以有效提高知识表示的性能,特别是能够有 效处理新实体的表示问题。可是,也能够看出,多源信息融合的知识表示学习仍 处于很是起步的阶段,相关工做较少,考虑的信息源很是有限,有大量的信息(如 音频、图片、视频等)未被考虑,具备广阔的研究前景。
在知识图谱中,多步的关系路径也可以反映实体之间的语义关系。为了突破 TransE 等模型孤立学习每一个三元组的局限性,Lin 等人提出考虑关系路径的表示 学习方法,以 TransE 做为扩展基础,提出 Path-based TransE(PTransE)模型[Lin, et al., 2015]。几乎同时,也有其余研究团队在知识表示学习中成功考虑了关系路 径的建模[Alberto, et al., 2015]。关系路径的表示学习也被用来进行基于知识库的 自动问答[Gu, et al., 2015]。 PTransE 等研究的实验代表,考虑关系路径可以极大提高知识表示学习的区分性,提升在知识图谱补全等任务上的性能。关系路径建模工做还比较初步,在关系路径的可靠性计算,关系路径的语义组合操做等方面,还有不少细致的考察 工做须要完成。
近年来知识表示学习已经崭露头角,在不少任务上展示了巨大的应用潜力。 对于 TransE 等模型面临的挑战,也已经提出了不少改进方案。然而,知识表示 学习距离真正实用还很远,本节将对知识表示学习的将来方向进行展望。
面向不一样知识类型的知识表示学习 已有工做将知识库的关系划分为 1-一、1-N、N-1 和 N-N 四类,这种关系类 型划分略显粗糙,没法直观地解释知识的本质类型特色。近期发表在 Science 等 权威期刊的认知科学研究成果[Kemp, et al., 2009; Tenenbaum, et al., 2011] 总结认 为,人类知识包括如下几种结构:
(1)树状关系,表示实体间的层次分类关系;
(2)二维网格关系,表示现实世界的空间信息;
(3)单维顺序关系,表示实体 间的偏序关系;
(4)有向网络关系,表示实体间的关联或因果关系。
认知科学对 人类知识类型的总结,有助于对知识图谱中知识类型的划分和处理。将来有必要 结合人工智能和认知科学的最新研究成果,有针对性地设计知识类型划分标准, 开展面向不一样复杂关系类型的知识表示学习研究。
多源信息融合的知识表示学习
在多源信息融合的知识表示学习方面,相关工做还比较有限,主要是考虑实 体描述的知识表示学习模型,以及文本与知识库融合的知识表示学习,这些模型 不管是信息来源,仍是融合手段都很是有限。咱们认为在多源信息融合的知识表 示学习方面,咱们还能够对下列方面进行探索:
(1)融合知识库中实体和关系的 其余信息,知识库中拥有关于实体和关系的丰富信息,如描述文本、层次类型等。 有机融合这些信息,将显著提高知识表示学习的表示能力;
(2)融合互联网文本、 图像、音频、视频信息,互联网海量文本、音频、视频数据是知识库的重要知识 来源,有效地利用这些信息进行知识表示能够极大地提高现有知识表示方法的表 示能力;
(3)融合多知识库信息,人们利用不一样的信息源构建了不一样的知识库。 如何对多知识库信息进行融合表示,对于创建统一的大规模知识库意义重大。
考虑复杂推理模式的知识表示学习
考虑关系路径的知识表示学习,其实是充分利用了两实体间的关系和关系 路径之间的推理模式,来为表示学习模型提供更精确的约束信息。例如,根据三 元组(康熙,父亲,雍正)和(雍正,父亲,乾隆)构成的“康熙”和“乾隆”之间 “父亲+父亲”的关系路径,再结合三元组(康熙,祖父,乾隆),PTransE 实际上 额外提供了“父亲+父亲=祖父”的推理模式,从而提高知识表示的精确性。
实际上,关系路径只是复杂推理模式中的一种特殊形式,它要求头实体和尾实体必须保持不变。但实际上,知识库中还有其余形式的推理模式,例如三元组 (美国,总统,奥巴马)和(奥巴马,是,美国人)之间就存在着推理关系,但 是二者的头、尾实体并不彻底一致。若是能将这些复杂推理模式考虑到知识表示 学习中,将能更进一步提高知识表示的性能。 在该问题中,如何总结和表示这些复杂推理模式,是关键难题。目前来看, 一阶逻辑(First-Order Logic,FOL)是对复杂推理模式的较佳表示方案,将来我 们须要探索一阶逻辑的分布式表示,及其融合到知识表示学习中的技术方案。
面向大规模知识库的在线学习和快速学习 大规模知识库稀疏性很强。初步实验代表,已有表示学习模型在大规模知识 库上性能堪忧,特别是对低频实体和关系的表示效果较差。并且知识库规模不断 扩大,咱们须要设计高效的在线学习方案。除了充分融合多源信息下降稀疏性之 外,咱们还能够探索如何优化表示学习的方式,借鉴课程学习和迁移学习等算法 思想,进一步改善知识表示的效果。
基于知识分布式表示的应用 知识表示学习还处于起步阶段,在知识获取、融合和推理等方向均有广阔的 应用空间。咱们须要在若干重要任务上探索和验证知识表示学习的有效性。例如, 关系抽取任务若是可以基于知识表示学习有效利用知识库信息,将可以极大提高 抽取性能和覆盖面。再如,咱们能够充分利用表示学习在信息融合上的优点,实 现跨领域和跨语言的知识库融合。目前,知识分布式表示的做用已经在信息抽取、 自动问答、信息检索、推荐系统中获得初步验证,将来还需在更多任务上进行更 加深刻的探索。