笔者:整理2016-2017年ACL、EMNLP、SIGIR、IJCAI、AAAI等国际知名会议中实体关系推理与知识图谱补全的相关论文,供天然语言处理研究人员,尤为知识图谱领域的学者参考,若有错误理解之处请指出,不胜感激!(如需转载,请联系本人:jtianwen2014,并注明出处)算法
- 做者:Qiao Liu, Liuyi Jiang, Minghao Han, Yao Liu, Zhiguang Qin
- 机构:School of Information and Software Engineering, University of Electronic Science and Technology of China
--------论文掠影--------网络
本文面向的任务是基于知识图谱的关系推理。本文经过对比考察PRA方法和TransE方法在关系推理上的执行效果并分析缘由,在PRA基础上提出层次的随机游走算法HiRi进行实体关系推理。架构
本文首先叙述了基于知识图谱的关系推理的相关工做,大致分为三种方法:首先是统计关系学习方法(SRL),如马尔科夫逻辑网络、贝叶斯网络,但这类方发须要设计相应的规则,所以没有很好的扩展性和泛化性;嵌入式表示的方法,旨在将实体和关系映射为空间中的向量,经过空间中向量的运算来进行推理(如TransE),该方法取得了较好的准确率,但分布式表示的解释性不强,另外,较难实现并行计算;基于关系路径特征的随机游走模型,该方法能够进行并行计算,具备较好的执行效率,但准确率与召回率相比嵌入式表示学习的方法存在劣势。本文的想法是:是否能够设计算法同时实现随机游走模型的执行效率以及保留嵌入式表示学习方法的准确率?dom
--------方法介绍--------分布式
本文对TransE方法(嵌入式表示学习的表明)和PRA方法(随机游走模型的表明)进行对比,在一对多、一对1、多对多、多对一这四类关系上进行对比分析:函数
对比发现:在1:M关系上,PRA远不如TransE;但在M:1关系上,二者很接近。有此现象,本文的第一个假设认为能够将知识图谱看作无向图,以此来规避1:M关系上的弱势。学习
另外,PRA方法在M:M关系上也只达到了TrasnE方法效果的一半,本文认为这说明了PRA在多对多关系上抽取的路径特征并无充分地利用多对多关系产生的簇中的链接信息(文中有举例说明这一点)。相比而言,嵌入式学习的方法因为将知识图谱全局信息编码到向量空间里,因此能够充分利用到这种信息。编码
在利用多对多推理关系时,常常会用到关系的反向,即从尾实体到头实体的方向,这种推离的方法可使用odd-hop随机游走模型来建模,基于此本文的第二个假设是:具备拓扑结构的关系明确的簇可能会涵盖对推理颇有帮助的信息,那么,基于关系学习算法的随机游走能够加强推理能力。 spa
本文提出了一种层次化推理的架构,共分为三个部分:全局推理、局部推理、推理结果融合,结构框图以下:翻译
全局推理是利用PRA算法进行推理,以获得三元组成立的几率\(f(h,r_i,t)\);局部推理时在特定关系的子图(簇)上计算一个3跳的几率矩阵,以获得存在可能该关系的三元组几率\(g(h,r_i,t)\),因为是在一个簇上进行的,这是一个局部的推理。融合的过程是利用一个线性模型对两部分的几率融合,以获得最终的几率。
笔者:本文经过分析PRA与TransE的在不一样类型关系上的差距,提出了两个假设,并在此基础上提出层次化的推理方法HiRi,即在全局和局部分别进行关系推理,最终融合在一块儿得到推理结果。本文在第二个假设的提出上没有给出太多明确的解释,所举的例子和该假设的提出在递进关系上有些牵强,笔者未理清思路。另外,3跳的由来是否来自于“关系-关系反向-关系”路径,即3跳回到原关系?对于假设一,将关系看作无向的,会带来哪些不良后果?前人是否有这方面的探讨?
- 做者:Han Xiao, Minlie Huang, Xiaoyan Zhu
- 机构:Dept. of Computer Science and Technology, Tsinghua University
--------论文掠影--------
本文提出:目前已有的知识表示学习方法没法实现精确连接预测,本文认为有两个缘由致使了这一现象的出现:ill-posed algebraic problem、adopting an overstrict geometric form。
其中,ill-posed algebraic problem指的是:一个方程组中的方程式个数远大于变量个数。本文以翻译模型为表明叙述这一问题。翻译的目的是,对知识库的三元组的嵌入式表示知足\(\boldsymbol {\rm {h_r+r=t_r}}\),若是三元组的数量为\(T\),嵌入式表示的维度为\(d\),那么一共有\(T*d\)个方程式,而所须要学习的变量一共有\((E+R)*d\),其中\(E,R\)表示实体和关系类型的数量。因为三元组的数量远大于实体和关系类型的数量,那么这种翻译模型存在严重的ill-posed algebraic problem问题。
对于一个ill-posed algebraic系统,所求得的解常常是不精确且不稳定的,这也正是以往方法没法进行精确连接预测的缘由之一。为此,本文提出一个基于流形(manifold)的原则,用\(\mathcal{M}(\boldsymbol {\rm {h,r,t}})=D_r^2\)用来代替\(\boldsymbol {\rm {h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函数。
另外,对于TransE的方法,对于给定的头实体和关系,应用于\(\boldsymbol {\rm {h+r=t}}\),所获得的尾实体几乎是一个点,这对于多对多关系而言显然是不正确的,这是一种overstrict geometric form。前人的一些方法如TransH、TransR将实体和关系映射到一些与关系相关的子空间中来缓解这一问题,然而,这种问题在子空间中仍然存在。这种过于严苛的形式或致使引入大量的噪声元素,在连接预测的过程当中没法准确预测。
以下图所示,越靠近圆心组成正确三元组的可能性越大,蓝色为正确的答案,红色为噪声,其中TransE的方法没法很好地区分,而本文提出的ManifoldE能够很好的区分噪声数据。
--------方法介绍--------
本文提出用\(\mathcal{M}(\boldsymbol {\rm {h,r,t}})=D_r^2\)用来代替\(\boldsymbol {\rm {h_r+r=t_r}}\),其中\(\mathcal{M}\)是流形函数。打分函数定义为:
\[f_r(h,t)=||\mathcal{M}(h,r,t)-D_r^2||^2\]
对于\(\mathcal{M}\)的定义,其中一种以球体为流形。即对于给定头实体和关系类型,尾实体在向量空间中分布在以\(\boldsymbol {\rm {h+r}}\)为球心的球面上,此时:
\[\mathcal{M}(h,r,t)=||\boldsymbol {\rm {h+r-t}}||_2^2\]
这里的向量能够应用Reproducing Kernel Hilbert Space (RKHS)映射到Hilbert空间,以更高效地表征流形。
考虑到球体不易相交,而这可能致使一些实体的损失,本文叙述能够以超平面为流形。即对于给定头实体和关系类型,尾实体位于以\((\boldsymbol {\rm {h+r_{head}}})^{\rm {T}}\)为方向、偏移量与\(D_r^2\)相关的超平面上。在空间中,只要两个法向量不平行,这两个超平面就会有相交。流形函数定义以下:
\[\mathcal{M}(h,r,t)=(\boldsymbol {\rm {h+r_{head}}})^{\rm {T}}(\boldsymbol {\rm {t+r_{tail}}})\]
本文叙述为了增长给定头实体和关系推理出精确的尾实体数量,对向量绝对值化:
\[\mathcal{M}(h,r,t)=|\boldsymbol {\rm {h+r_{head}}}|^{\rm {T}}|\boldsymbol {\rm {t+r_{tail}}}|\]
其中,\(|\boldsymbol {\rm {w}}|=(|w_1|,|w_2|,|w_3|,...,|w_n|)\)。
对于以往方法存在的ill-posed问题,本文的方法对其较好地解决。以球形为例,本文对于每一个三元组只对应一个等式:\(\sum_{i=1}^{d}(h_i+r_i-t_i)^2=D_r^2\),因此若是知足\(d\geq \frac {\#Equation}{E+R}=\frac {T}{E+R}\)。要知足这一条件只需适当增长向量的维度,从而较好的实现精确预测。
训练的过程是增长正例的分数,而减少负例的分数,目标函数以下:
\[\mathcal{L}=\sum_{(h,r,t)\in \Delta}\sum_{(h',r',t')\in \Delta '}[f_r'(h',t')-f_r(h,t)+\gamma]_+\]
实验结果显示该方法较好的实现了精确连接预测(hit@1):
笔者:本文提出以前的表示学习没法较好的实现精确连接预测,并提出形成该问题的两点缘由:ill-posed algebraic problem、adopting an overstrict geometric form,并针对这两个点问题切中要害提出基于流形的表示学习方法,实验结果显示该方法较好的实现了精确连接预测。
- 做者:Zhigang Wang and Juanzi Li
- 机构:Tsinghua University
本文面向知识图谱的表示学习任务,提出利用外部文本中的上下问信息辅助知识图谱的表示学习。
本文叙述:TransE、TransH、TransR等方法没法很好的解决非一对一关系,并且受限于知识图谱的数据稀疏问题,基于此本文提出利用外部文本中的上下问信息辅助知识图谱的表示学习。相似距离监督,本文首先将实体回标到文本语料中;以此获取到实体词与其余重要单词的共现网络,该网络能够看作联系知识图谱与文本信息的纽带;基于此网络,定义实体与关系的文本上下文,并将其融入到知识图谱中;最后利用翻译模型对实体与关系的表示进行学习。
下图是一个简单的图示:
- 做者:Ruobing Xie, Zhiyuan Liu, Maosong Sun
- 机构:Tsinghua University
本文面向知识图谱的表示学习任务,提出融入实体类型信息辅助知识图谱的表示学习。
本文叙述:目前的大多数方法专一于利用知识图谱中三元组结构的表示学习,而忽略了融入实体类型的信息。对于实体而言,对于不一样的类型含义应该具备不一样的表示。本文从Freebase中获取实体的类型信息,并将其层次化表示,并设计了两种编码方式,对于不一样的关系经过参数调整得到对应的实体表示。
- 做者:Yankai Lin, Zhiyuan Liu, Maosong Sun
- 机构:Tsinghua University
本文面向知识图谱的表示学习任务,提出利用实体、属性、关系三个元素来进行表示学习。
本文提出对属性和关系加以区分,并在表示学习的过程当中区别对待,本文首先提出属性与关系的区别,本文叙述:属性的值通常是抽象的概念,如性别与职业等;并且经过统计发现,属性每每是多对一的,并且对于特定的属性,其取值大多来源于一个小集合,如性别。对关系与属性采用不一样的约束方式进行独立表示学习,同时提出属性之间的更强的约束关系。本文想法新颖,很值得借鉴。