关于信息抽取的整理总结(上)

动机

天然语言处理的课上老师介绍了关于信息抽取的相关内容,结合老师课件提到的相关文献,写一篇总体的总结将本类文献进行汇总,以便后续根据研究须要引用和深刻阅读文献。web

1. 信息抽取概述

1.1 信息抽取定义

通常意义上,信息抽取的定义为:从天然语言文本中抽取指定类型的实体、关系、事件等事实信息,并造成结构化数据输出的文本处理技术[1]。算法

1.2 信息抽取的任务

  • 实体识别与抽取
  • 实体消岐
  • 关系抽取
  • 事件抽取

2. 实体识别与抽取

实体的识别和抽取根据应用的不一样能够分为命名实体识别和开放域实体识别网络

2.1 实体识别

命名实体识别的主要任务是识别出待处理文本中七类命名实体,分别为人名、机构名、地名、时间、日期、货币和百分比。
在这七类当中,时间、日期、货币、百分比相对而言其构成具备很明显的规律,识别起来相对容易,可是剩下的三类因为用字灵活,因此识别难度很大。命名实体的内部构成和外部语言环境具备一些特征,不管何种方法,都在试图充分发现和利用实体所在的上下文特征和实体的内部特征。
考虑到每一类命名实体都具备不一样的特征,不一样类别的实体适合用不一样的识别模型[2]:
- 人名:用基于字的模型描述其内部构成
- 地名和机构名:用基于词的模型描述 app

同时利用MEMM、HMM、CRF等序列标注工具计算特征权重。composer

2.2 开放域实体抽取

相对于实体识别而言,该领域目前更具备研究前景和价值。开放域实体抽取的特色在于不限定实体类别,不限定目标文本。 框架

基本任务
给定某一类别的实体实例,从网页中抽取同一类别其余实体实例
例如给定<中国,美国,俄罗斯>(称为“种子”),找出其余国家<德国,英国,法国……>dom

基本思路在于种子词与目标词在网页中具备相同或者相似的上下文(包括网页结构和上下文)。所以须要首先利用种子词提取模板,随后利用模板提取更多同类实体。处理该问题的主流框架为:ide

Created with Raphaël 2.1.0开始种子抽取器/抽取模板候选打分器结果

2.3 开放域实体抽取的主要方法

  • 基于Query Log的抽取方法[3]
    经过分析种子实例在查询日志中的上下文学得模板,再利用模板找到同类别的实例.基本方法为构造候选与种子上下文向量,计算类似度。工具

  • 基于Web Page的抽取方法[4]
    该文献的动机源于处理列表型文件即在同一个网页中,种子和目标实体具备相同的网页结构。整个系统主要分为三个模块。
    爬取模块(Fetcher):把种子送到搜索引擎,把返回的前100个网页抓取下来做为语料
    抽取模块(Extractor):针对单个网页学习模板,再使用模板抽取候选实例
    排序模块(Ranker):利用种子、网页、模板、候选构造一个图,综合考虑网页和模板的质量,使用Random Walk算法为候选打分并排序性能

  • 融合多个数据源的抽取方法[5]
    采用网页、查询日志、维基百科多种数据源,针对不一样数据源,选取不一样特征分别进行实例扩展,对结果进行融合,针对不一样数据源选取不一样的模板和特征,使用不一样特征计算候选的置信度。

3 实体消岐

3.1 实体消岐定义

命名实体的歧义指的是一个实体指称项可对应到多个真实世界实体,肯定一个实体指称项所指向的真实世界实体,这就是命名实体消歧。
针对方法的不一样能够分为基于聚类的实体消岐和基于实体连接的实体消岐。

3.2 基于聚类的实体消岐

基本思路为同一指称项具备近似的上下文,利用聚类算法进行消歧。其核心问题在于选取何种特征对于指称项进行表示,根据特征的不一样,共有以下几种方法

  • 基于词袋模型[6]
    利用待消歧实体周边的词来构造向量,利用向量空间模型来计算两个实体指称项的类似度,进行聚类。

  • 基于语义特征[7]
    词袋模型没有考虑词的语义信息,本文利用SVD分解挖掘词的语义信息,利用词袋和浅层语义特征,共同来表示指称项,利用余弦类似度来计算两个指称项的类似度。

  • 基于社会化网络[8]
    不一样的人具备不一样的社会关系,利用实体的社会化关联信息所表现出来的网页连接特征,对网页进行聚类,从而实现网页内的人名聚类消歧。

  • 基于Wikipedia[9]
    Wikipedia中相关实体具备连接关系,这种连接关系反映条目之间的语义相关度。在维基百科当中,语义关联度最高的概念会共同连接更多的概念[11]。

    sr(a,b)=log(max(A,B))log(AB)log(W)log(min(A,B))sr(a,b)=log⁡(max(A,B))−log⁡(A∩B)log⁡(W)−log⁡(min(A,B))

    其中,A、B表示概念a、b的连接数,W表示维基百科中总共实体的个数。
    文献[9]用实体上下文的维基条目对于实体进行向量表示,利用维基条目之间的相关度计算指称项之间的类似度,从而解决数据稀疏问题

  • 基于多源异构知识[10]
    仅仅考虑Wikipedia一种知识源,覆盖度有限。知识源中存在大量的多源异构知识,挖掘和集成多源异构知识能够提升实体消歧的性能。该文献利用维基百科、Wordnet、Web网页库(挖掘社会关联)三种知识源,利用语义图来表示多源异构数据。在语义图中,利用语义图的边表示显示语义关联,利用语义图的机构表示隐藏语义关联。

基于聚类的方法主要集中在语义表示上,但也有挑战,首先是消岐目标难以肯定,第二是缺少实体的显式表示。

3.3 基于连接的实体消岐

其基本目标在于给定实体指称项和它所在的文本,将其连接到给定知识库中的相应实体上。主要的步骤分为两步:

  • 候选实体的发现
    给定实体指称项,连接系统根据知识、规则等信息找到实体指称项的候选实体

  • 候选实体的连接
    系统根据指称项和候选实体之间的类似度等特征,选择实体指称项的目标实体

3.3.1 候选实体的发现

主要有两种方法:

  • 利用维基百科信息
    利用Wikipedia中锚文本的超级连接关系、利用Wikipedia中的消歧页面、利用Wikipedia中的重定向页面。

  • 利用上下文信息[12]
    文献[12]主要利用上下文获取缩略语候选实体。缩略语指称项具备很强的歧义性,但它的全称每每是没有歧义的。在实体指称项文本中,缩略语的全称出现过。利用人工规则抽取实体候选。

3.3.2 候选实体连接

基本方法:计算实体指称项和候选实体的类似度,选择类似度最大的候选实体.

3.3.2.1 单一实体连接

  • BOW模型[13, 14]
    基于词袋子模型计算类似度。将实体指称项上下文文本与候选实体上下文文本表示成词袋子向量形式,经过计算向量间的夹角肯定指称项与候选实体类似度,系统选择类似度最大的候选实体进行连接。

  • 加入候选实体的类别特征[15]
    针对候选实体的文本内容可能过短,会致使类似度计算的不许确的问题,文献[15]加入指称项文本中的词与候选实体类别的共现特征。例:除了计算待消歧文本和实体Wikipedia文本John Williams (composer)的类似度外,还考虑当前文本中的词语与Music, Art等类别(实体所属类别)的共现信息。利用SVM分类器进行选择,利用特征为文本类似度和指称项文本中词与候选实体 类别的共现信息。

  • 加入候选实体的流行度等特征[16]
    针对传统的方法仅仅是计算实体指称项与候选实体的类似度,忽略了候选实体的背景知识与先验信息,如实体自己的流行度、实体与指称项的关系等问题,本文考虑实体的背景知识,将实体的背景知识融入到实体连接的过程,实体的背景知识和先验信息主要有
    实体流行度:实体e在知识库中的几率P(e)
    名称的知识:指称项s指向实体e的几率P(s|e)
    上下文知识:实体e出如今特定上下文环境c的几率P(c|e)

3.3.2.2 协同实体连接
该方法主要针对同一篇文档中实体之间具备语义相关性,所以利用Pairwise优化策略。

1C2|So|ssS0r(ys,ys)+1|So|sSoωTfs(ys)1C|So|2∑s≠s′∈S0r(ys,ys′)+1|So|∑s∈SoωTfs(ys)

前一项为任意两个目标实体之间的语义相关度,后一项为实体指称项到目标实体的语义类似度。即在进行实体连接的时候,不只考虑连接可能最大化,也要一篇文档中实体之间的语义相关性更大。
针对目标实体之间的语义类似度的计算方法有两种:一是利用实体类别重合度计算目标实体语义类似度[17];二是利用实体之间连接关系计算目标实体语义类似度[18]。

  • 基于图的协同连接[19]
    Pairwise策略只考虑两两实体关系,结果不是最优的,采用图方法,全局考虑目标实体之间的语义关联。该图由两种关系组成,该指称项文本与实体文本的类似度,由传统的VSM模型获得和实体之间的语义关系,利用目标实体之间的连接关系计算实体之间的语义相关度。

  • 基于深度学习的方法[20]
    传统的方法中,计算待消歧实体上下文和目标实体语义类似度的方法(点乘、余弦类似度、KL距离等)可扩展性差,没有考虑各个概念间的内在联系。在协同过滤的方法中,计算待消歧实体上下文和目标实体语义类似度也是基础工做。文献提出提出利用深度学习的方法自动联合学习实体和文档的表示,进而完成实体连接任务。

  • 跨语言实体连接[21]
    给定一种语言的实体指称项和其所在的上下文,将其连接到另一种语言的知识库中,传统方法要先翻译成目标语言,可能产生错误传递,须要大量的句子级平行的双语训练语料。本文利用双语隐含主题模型将实体指称项与候选实体映射到同一个主题空间中,每个隐含主题有两种不一样的分布,分别对应两种不一样语言,处于同一个主题分布下的两种不一样语言的词的分布具备一些共性。

  • 结构化数据中的实体连接[22]
    结构化数据没有上下文,任务与传统的实体连接不一样,主要利用实体的流行度和实体共现类型去消歧。

  • 社交数据中的实体连接[23]
    社交媒体(Twitter)是一种重要的信息来源,社交媒体的上下文较短,语言表述不规范。文献利用tweet的用户信息和tweet的交互信息进行连接。

目前实体连接方法主要是如何更有效挖掘实体指称项信息,如何更准确地计算实体指称项和实体概念之间的类似度。难点在于未登陆实体的处理。

参考文献

[1] Grishman R. Information extraction: Techniques and challenges[M]//Information extraction a multidisciplinary approach to an emerging information technology. Springer Berlin Heidelberg, 1997: 10-27. [2] Wu Y, Zhao J, Xu B, et al. Chinese named entity recognition based on multiple features[C]//Proceedings of the Conference on Human Language Technology and Empirical Methods in Natural Language Processing. Association for Computational Linguistics, 2005: 427-434. [3] Paşca M. Weakly-supervised discovery of named entities using web search queries[C]//Proceedings of the sixteenth ACM conference on Conference on information and knowledge management. ACM, 2007: 683-690. [4] Wang R C, Cohen W W. Language-independent set expansion of named entities using the web[C]//Data Mining, 2007. ICDM 2007. Seventh IEEE International Conference on. IEEE, 2007: 342-350. [5] Pennacchiotti M, Pantel P. Entity extraction via ensemble semantics[C]//Proceedings of the 2009 Conference on Empirical Methods in Natural Language Processing: Volume 1-Volume 1. Association for Computational Linguistics, 2009: 238-247. [6] Baldwin B, Bagga A. Coreference as the foundations for link analysis over free text databases[C]//Proceedings of the COLING-ACL. 1998, 98: 19-24. [7] Pedersen T, Purandare A, Kulkarni A. Name discrimination by clustering similar contexts[M]//Computational Linguistics and Intelligent Text Processing. Springer Berlin Heidelberg, 2005: 226-237. [8] Bekkerman R, McCallum A. Disambiguating web appearances of people in a social network[C]//Proceedings of the 14th international conference on World Wide Web. ACM, 2005: 463-470. [9] Han X, Zhao J. Named entity disambiguation by leveraging wikipedia semantic knowledge[C]//Proceedings of the 18th ACM conference on Information and knowledge management. ACM, 2009: 215-224. [10] Han X, Zhao J. Structural semantic relatedness: a knowledge-based method to named entity disambiguation[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2010: 50-59. [11] Milne D, Witten I H. Learning to link with wikipedia[C]//Proceedings of the 17th ACM conference on Information and knowledge management. ACM, 2008: 509-518. [12] Zhang W, Sim Y C, Su J, et al. Entity linking with effective acronym expansion, instance selection and topic modeling[C]// International Joint Conference on Artificial Intelligence. AAAI Press, 2011:1909-1914. [13] Honnibal M, Dale R. DAMSEL: The DSTO/Macquarie system for entity-linking[C]//Proceedings of the Second Text Analysis Conference. ==NIST==, 2009. [14] Bikel D, Castelli V, Florian R, et al. Entity linking and slot filling through statistical processing and inference rules[C]//Proceedings of the Second Text Analysis Conference. ==NIST==, 2009. [15] Bunescu R C, Pasca M. Using Encyclopedic Knowledge for Named entity Disambiguation.[C]// Eacl 2006, Conference of the European Chapter of the Association for Computational Linguistics, Proceedings of the Conference, April 3-7, 2006, Trento, Italy. 2006:9–16. [16] Han B, Baldwin T. Lexical normalisation of short text messages: Makn sens a# twitter[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies-Volume 1. Association for Computational Linguistics, 2011: 368-378. [17] Cucerzan S. Large-Scale Named Entity Disambiguation Based on Wikipedia Data[C]//Proceedings of the Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning. ACL, 2007, 7: 708-716. [18] Kulkarni S, Singh A, Ramakrishnan G, et al. Collective annotation of Wikipedia entities in web text[C]//Proceedings of the 15th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2009: 457-466. [19] Han X, Sun L, Zhao J. Collective entity linking in web text: a graph-based method[C]//Proceedings of the 34th international ACM SIGIR conference on Research and development in Information Retrieval. ACM, 2011: 765-774. [20] He Z, Liu S, Li M, et al. Learning Entity Representation for Entity Disambiguation[C]//Proceedings of the Annual Meeting of the Association for Computational Linguistics. ACL, 2013: 30-34. [21] Zhang T, Liu K, Zhao J. Cross Lingual Entity Linking with Bilingual Topic Model[C]//Proceedings of the International Joint Conference on Artificial Intelligence. Morgan Kaufmann, 2013. [22] Shen W, Wang J, Luo P, et al. LIEGE:: link entities in web lists with knowledge base[C]//Proceedings of the 18th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2012: 1424-1432. [23] Shen W, Wang J, Luo P, et al. Linking named entities in tweets with knowledge base via user interest modeling[C]//Proceedings of the 19th ACM SIGKDD international conference on Knowledge discovery and data mining. ACM, 2013: 68-76.