如需转载,请联系本人:jtianwen2014,并注明出处web
- 做者:Dian Yu, Heng Ji
- 机构:Computer Science Department, Rensselaer Polytechnic Institute
本文的任务为槽填充(Slot Filling),即从大规模的语料库中抽取给定实体(query)的被明肯定义的属性(slot types)的值(slot fillers)。对于此任务,本文叙述目前主流的方法能够分为两类:有监督的分类方法,设计分类器识别给定的实体与值所属的关系类型,分类器的训练每每使用如活动学习、利用距离监督的噪声标注等方法;模式匹配方法,从文本中自动或半自动地抽取和生成词法或句法的模式,以用于关系的抽取,但由于关系所表述的方式千差万别,这种模式匹配方法没法拥有较好的召回率。 算法
本文认为,以上两类方法都没法很好的应对新的语言或是出现新的关系类型的状况,即移植性不强;并且,两种方法都只是专一于实体和候选值以前的平坦表示,并无考虑到它们之间的全局结构关系,以及语句中其余的关系事实的影响。本文重要的算法思想基于如下两个观察: 编程
基于以上两个观察,本文的提出了一种基于图的槽填充的方法:首先,利用简单的启发式规则,从句子中识别出候选实体与属性值;而后,对于给定候选实体与属性值对,利用PageRank图算法和AP(Affinity Propagation)聚类算法自动识别触发词;最后,根据识别的触发词对属性类型(slot type)进行分类。本文主要的思想在于,以属性触发词为切入点进行关系的挖掘,将PageRank算法与AP算法引入其中。候选实体与属性值的识别、属性类型的分类这两个部分使用了启发式的规则与外部的词典资源。 网络
- 做者:Quan Wang†, Jing Liu‡, Yuanfei Luo†, Bin Wang†, Chin-Yew Lin‡
- 机构†:Institute of Information Engineering, Chinese Academy of Sciences
- 机构‡:Microsoft Research
本文的任务为知识库补全,即经过考察知识库中已经存在的事实,自动推理出丢失的事实。本文叙述这项任务的方法大致分为三种: 并发
因为PRA方法具备较好的解释性,而且不须要额外的逻辑规则,本文主要使用PRA方法对其改进。在利用PRA进行关系推理时,以往的方法都是在推理阶段,利用PRA为每一个关系独立建模,也就是为每一个关系学习一个独立的分类器。 app
本文的初衷是:若是使用PRA对某些关系集体建模是否会获得更好的效果,尤为是当这些关系彼此紧密联系的时候,好比,“出生”和“生长于”这两个关系极有可能共同拥有一些关系路径:“国籍->首都”等。不少研究代表这种多任务学习相比单任务学习而言,每每具备更好的效果。本文提出CPRA的方法,该方法所要解决两个问题:(1)哪些关系须要组合在一块儿学习?(2)如何组合在一块儿学习?框架
- 做者:Xiang Li∗‡ Aynaz Taheri† Lifu Tu‡ Kevin Gimpel‡
- 机构∗:University of Chicago
- 机构†:University of Illinois at Chicago
- 机构‡:Toyota Technological Institute at Chicago
本文的任务是常识知识库的补全工做,即根据已有的知识推理预测概念之间心的知识。不一样于通常的知识库,如FreeBase,常识知识库ConceptNet的结点主要为短语,而非实体。本文利用神经网络的方法将ConceptNet中词项向量话表示,对于给定的元组进行打分以得到置信度较高的元组用以补全。ide
- 做者:Kristina Toutanova, Xi Victoria Lin∗, Wen-tau Yih, Hoifung Poon, Chris Quirk
- 机构:Microsoft Research
- 机构∗:University of Washington
本文的任务为知识图谱补全,推理预测实体间潜在的关系。本文叙述,当前的一些学者将关系路径信息融入到知识库嵌入式表示中,取得了很是显著的结果。知识库嵌入式表示,指的是将知识库中实体和关系映射到低维稠密的空间中,知识的推理转化为实体与关系所关联的向量或矩阵之间的运算。这种嵌入式的表示,操做花销较小,推理的效率较高。为了进一步提高基于嵌入式表示的关系推理,一些学者将关系路径信息融入其中。工具
本文发现,目前的将关系路径融入知识库的嵌入式表示方法存在以下问题:首先,当关系的路径总类增多时,时间开销较大,严重影响推理的效率;另外,目前的方法只考虑了路径信息,没有考虑结点的信息,即便是相同路径,包含不一样结点也拥有不一样的信息。本文提出了一种动态编程的方法,能够高效地将关系路径融入到知识库的嵌入式表示,而且同时对路径上的关系类型和结点进行表示。学习
- 做者:Han Xiao, Minlie Huang∗, Xiaoyan Zhu
- 机构:State Key Lab. of Intelligent Technology and Systems National Lab. for Information Science and Technology
- 机构∗:Dept. of Computer Science and Technology Tsinghua University
本文的任务为知识图谱表示学习,旨在将知识图谱映射到低维稠密的向量空间里。与以往研究工做不一样,本文将目光聚焦于“多语义关系”,即同一名相的关系可能具备不一样的语义含义,如对于关系“HasPart”,对于实体“桌子”和“桌腿”有这种关系,对于“英国”和“伦敦”也一样具备这样的关系,但两者所表达的含义却不尽相同。
不止于感性层面上,本文对TransE的知识图谱向量表示进行可视化(PCA降维):抽取四种不一样关系,将具备给定关系的实体对向量相减(据TransE思想,能够获得关系的向量),将结果向量展现在二维空间里。理想状况下,对于每一个关系应该只和一个簇对应,但真实的结果是每一个关系不止一个簇,而是多个明显分开的簇。这也从另外一个角度说明了关系的多语义性质。
针对这一问题,本文提出贝叶斯非参数混合嵌入式表示模型,TransG。TransG能够自动发现关系的多语义簇,而且利用关系的混合语义对实体对进行翻译操做,以进行关系推理。
- 做者:Di Lu1, Xiaoman Pan1, Nima Pourdamghani2, Shih-Fu Chang3, Heng Ji1, Kevin Knight2
- 机构1:Computer Science Department, Rensselaer Polytechnic Institute
- 机构2:Information Sciences Institute, University of Southern California
- 机构3:Electrical Engineering Department, Columbia University
文本的任务为low-resource语言(LLs)的实体识别,即从LLs的文本中发现实体。在某些状况下,如突发事件以及天然灾害发生时,咱们常常须要构建一个LLs的信息抽取工具。对于LLs的信息抽取,其主要的挑战在于缺少目标语言的标注数据以及相应的语言处理工具,一个较为承认的解决方案是:从high-resource语言(HLs)(如英语)文本中抽取信息,并进行知识映射。
对于突发事件的发生,在LLs和HLs中每每存在着大量的非并发的、领域丰富的、主题相关的文本语料,如社交媒体。可是若是没有高效的机器翻译技术,即便在HLs中识别出信息也是无济于事。本文发现,在这些文档中经常存在着大量的媒体数据,这些媒体数据在不一样的语言上每每是类似的,如图片、视频,即语言独立的。
基于这个启发,本文以图片为枢纽自动发现内容类似的LLS和HLs文档数据,而后在HLs文档中进行实体识别与链指,最后借助多媒体的相关技术将结果映射到LLs。基于这个思想,本文提出两个组件:名称标注、跨语言实体链指(CLEL)。
整体框架包含两个步骤:(1)应用语言独立的关键短语抽取方法对LLs文档进行处理,利用这些短语搜索出种子图片,用于进一步检索相关图片以及包含这些图片的HLs文档;(2)从HLs文档中抽取知识,设计知识迁移的方法精炼LLs文档的抽取结果。
- 做者:Ander Barrena, Aitor Soroa, Eneko Agirre
- 机构:IXA NLP Group, UPV/EHU University of the Basque Country
本文的任务为实体消歧,即将文本中的名相实体连接到知识库中的实体实例。本文叙述,目前的实体链指的工做方法主要分为两类:(1)mention模型,经过先验几率对可能的实体进行排序;(2)上下文模型,从上下文中抽取特征,进行实体的链指。另外,最近有提出利用上下文中共现的实体来肯定目标实体的链指。
本文发现了以往方法受到低质量上下文的影响致使连接失败,不少状况下,上下文所提供的线索很弱或是有误导的可能。本文引入了背景知识来缓解低质量上下文的问题。本文主要引入了两部分背景知识:(1)和目标实体具备类似分布的实体(本文利用word2vec);(2)利用上下文的句法依存关系,引入依存的偏好,如上下文中的“visit to”和目标实体有动宾关系,与“visit to”具备动宾关系的主要是地名,因此目标实体极可能是地名。
- 做者:Kathleen McKeown, Christopher Hidey
- 机构:Department of Computer Science, Columbia University
本文的任务为识别句中指示因果关系的短语,并对其进行份分类。因果关系的检测是一项十分困难的任务。首先,大多数的因果关系都是隐式表达的,这须要一些背景知识进行推理才能得知;其次,即便对于显式表达的因果,其表达的方式也是多种多样。在PDTB中,有102种显式语篇关系makers,其中有28种指示因果关系,如“because”、“as a result”等。PDTB的研究学者发现了开放的makers存在,将其称为Altlex,其中指示因果关系的包括如“This may help explain why”、“This activity produced”等开放式的表达方式。对于因果关系,显示maker s能够以较高的准确率被识别,但却不多;隐式makers较多的存在于语句中,但不易识别,Altlex则介于这两者之间:因为其变化多样,因此识别起来较为困难,但Altlex的出现也使得因果关系的识别状况能够有提高空间。
数据的缺失是因果识别的关键问题。无监督学习的准确率较低,而监督学习又须要大量的训练数据已达到较高的找汇率。本文利用维基百科平行语料识别出新的因果关系makers,这些makers也是已知makers的变种,进而经过距离监督创造训练语料。利用开放的makers和上下文特征训练出因果分类器。