实体是文本中承载信息的重要语言单位,也是知识图谱的核心单元。算法
命名实体识别是指识别文本中的命名性实体,并将其划分到指定类别的任 务[Chinchor & Robinson, 1997]。经常使用实体类别包括人名、地名、机构名、日期等。数据库
实体连接主要解决实体名的歧义性和多样性问题,是指将文本中实体名指向其 所表明的真实世界实体的任务,也一般被称为实体消歧。例如,给 一句话“苹果发布了最新产品 iPhone X”,实体连接系统须要将文本中的“苹果”与 其真实世界所指的“苹果公司”进行对应。 实体识别与连接是海量文本分析的核心技术,为解决信息过载提供了有效 手段。网络
实体分析任务主要面临如下几个关键科学问题:架构
1. 实体名的歧义性和多样性。app
2. 资源缺少(Low Resource)问题。目前绝大部分的实体分析算法都依赖于有 监督模型,须要大量的训练语料来达到实用性能。然而,考虑到标注语料的成本, 在绝大部分状况下都不可能得到足够的训练语料来处理不一样的领域、面向不一样风 格的文本(规范、非规范)、不一样的语言(中文、英文、一带一路小语种等)等 多种多样的状况。无需大量训练语料的无监督/半监督技术,资源自动构建技术, 以及迁移学习等技术是解决上述问题的核心研究问题。工具
3. 实体的开放性问题。实体具备复杂性和开放性的特色。实体的复杂性指 的是实体的类型多种多样,同时类型之间具备复杂的层次结构。实体的开放性指 实体并非一个封闭的集合,而是随着时间增长、演化和失效。实体的开放性和 复杂性给实体分析带来了巨大的挑战:开放性使得现有有监督方法没法适应开放 知识的抽取;实体的巨大规模使得没法使用枚举或者人工编写的方式来进行处理, 同时随着时间变化现有模型的性能会降低。性能
传统方法:学习
NER用CRF。大数据
实体连接采用计算实体说起(mention)和知识库中实体的相 似度,并基于上述类似度选择特定实体说起的目标实体。搜索引擎
深度学习方法:
实体识别。随着深度学习在不一样领域的火爆,愈来愈多的深度学习模型被提 出用于解决实体识别问题。目前存在两类用于命名实体识别的典型深度学习架构, 一种是 NN-CRF 架构[Lample et al, 2016],在该架构中,CNN/LSTM 被用来学习 每个词位置处的向量表示,基于该向量表示,NN-CRF 解码该位置处的最佳标 签。第二种是采用滑动窗口分类的思想,使用神经网络学习句子中的每个 ngram 的表示,而后预测该 ngram 是不是一个目标实体[Xu et al., 2017]。
实体连接。实体连接的核心是构建多类型多模态上下文及知识的统一表示, 并建模不一样信息、不一样证据之间的相互交互。经过将不一样类型的信息映射到相同 的特征空间,并提供高效的端到端训练算法,深度学习方法给上述任务提供了强 有力的工具。目前的相关工做包括多源异构证据的向量表示学习、以及不一样证据 之间类似度的学习等工做[Ganea & Hofmann, 2017] [Gupta et al., 2017] [Sil et al., 2018] 。 相比传通通计方法,深度学习方法的主要优势是其训练是一个端到端的过程, 无需人工定义相关的特征。另一个优势是深度学习能够学习任务特定的表示, 创建不一样模态、不一样类型、不一样语言之间信息的关联,从而取得更好的实体分析 性能。目前,如何在深度学习方法中融入知识指导(如语言学结构约束、知识结 构)、考虑多任务之间的约束、以及如何将深度学习用于解决资源缺少问题(如构 建语言无关的命名实体识别)是当前的工做的热点。
文本挖掘方法
传通通计方法和深度学习方法都须要大量训练语料和预先明肯定义的目标 实体类别,没法处理大数据环境下的开放实体分析任务。除非结构化文本以外, Web 中每每还存在大量的半结构高质量数据源,如维基百科、网页中的表格、列 表、搜索引擎的查询日志等等。这些结构每每蕴含有丰富的语义信息。所以,半 结构 Web 数据源上的语义知识获取(knowledge harvesting),如大规模知识共享 社区(如百度百科、互动百科、维基百科)上的实体知识抽取,每每采用文本挖 掘 的 方 法 。 代 表 性 文 本 挖 掘 抽 取 系 统 包 括 DBPedia[Auer et al., 2007] 、 Yago[Suchanek & Kasneci, 200八、BabelNet、NELL 和 Kylin 等等。文本挖掘方法 的核心是构建从特定结构(如列表、Infobox)构建实体挖掘的特定规则。因为规 则自己可能带有不肯定性和歧义性,同时目标结构可能会有必定的噪音,文本挖 掘方法每每基于特定算法来对语义知识进行评分和过滤。 此外,人们发现结构化数据源只包含有限类别的实体,对长尾类别覆盖不足, 另外一方面的实体获取技术每每采用 Bootstrapping 策略,充分利用大数据的冗余 性,开放式的从 Web 中获取指定类型的实体。该部分的表明性的工做包括 TextRunner 系统和 Snowball 系统[Agichtein & Gravano, 2000]。
开放式实体集合 扩展的主要问题是语义漂移问题,近年来的主要工做集中在解决该问题。具体技 术包括互斥 Bootstrapping 技术、Co-Training 技术和 Co-Bootstrapping 技术。文本挖掘方法只从容易获取且具备明确结构的语料中抽取知识,所以抽取出 来的知识质量每每较高。然而,仅仅依靠结构化数据挖掘没法覆盖人类的大部分 语义知识:首先,绝大部分结构化数据源中的知识都是流行度高的知识,对长尾 知识的覆盖不足;此外,人们发现现有结构化数据源只能覆盖有限类别的语义知 识,相比人类的知识仍远远不够。
所以,如何结合文本挖掘方法(面向半结构化 数据,抽取出的知识质量高但覆盖度低)和文本抽取方法(面向非结构化数据, 抽取出的知识相比文本挖掘方法质量低但覆盖度高)的优势,融合来自不一样数据 源的知识,并将其与现有大规模知识库集成[Nakashole et al., 2012],是文本挖掘 方法的研究方向之一。
纵观实体识别研究发展的态势和技术现状,咱们认为其发展方向以下:
1. 融合先验知识的深度学习模型
近年来,深度学习模型已经在实体识别和连接任务上取得了长足的进展,并 展示了至关的技术潜力和优点。可是目前的深度学习模型的成功仍然依赖于大量 的训练语料,缺少面向任务特色的针对性设计。 以前的传通通计模型中已经证实许多先验知识对于实体识别和连接任务的有效性,如句法结构、语言学知识、任务自己约束、知识库知识和特征结构等。 如何在深度学习模型中融合上述先验知识并进行针对性的设计是提高现有深度 模型的有效手段之一。 另外一方面,现有深度模型在进行实体分析时仍然是一个黑箱模型,致使其可 解释性不强,且难以采用增量的方式构建模型。如何构建可解释、增量式的深度 学习模型也是将来值得解决的一个问题。
2. 资源缺少环境下的实体分析技术
目前,绝大部分实体分析研究集中在构建更精准的模型和方法,这些方法通 常面向预先定义好的实体类别,使用标注语料训练模型参数。然而,在构建真实 环境下的信息抽取系统时,这些有监督方法每每具备以下不足:
1)现有监督模 型在更换语料类型以后,每每会有一个大幅度的性能降低;
2)现有监督模型无 法分析目标类别以外的实体;
3)现有监督模型依赖于大规模的训练语料来提高 模型性能。
为解决上述问题,如何构建资源缺少环境下的实体分析系统是相关技术实用 化的核心问题。相关研究方向包括:构建迁移学习技术,充分利用已有的训练语 料;研究自学习技术,在极少人工干预下构建高性能的终生学习信息抽取系统; 研究增量学习技术,自动的重用以前的信息抽取模块,使得不一样资源能够逐步增 强,而不是每次都重头开始训练;研究无监督/半监督/知识监督技术,探索现有 有监督学习技术以外的有效手段,解决标注语料瓶颈问题。
3. 面向开放域的可扩展实体分析技术
因为实体分析任务的基础性,愈来愈多的任务和应用须要实体识别和连接技 术的支撑。这就要求实体分析技术可以处理各类不一样的情境带来的挑战,在开放 环境下取得良好性能。然而,现有实体分析系统每每针对新闻文本,对其它情境 下(如不一样文本类型微博、评论、列表页面等,不一样上下文如多模态上下文、短 文本上下文和数据库上下文)的研究不足。 所以,实体分析的发展方向之一是构建面向开放域的可扩展实体分析技术。 具体包括:
1)数据规模上的可扩展性:信息抽取系统须要可以高效的处理海量 规模的待抽取数据;
2)数据源类型上的可扩展性:信息抽取系统须要可以在面 对不一样类型数据源时取得鲁棒的性能;
3)领域的可扩展性:信息抽取系统须要 可以方便的从一个领域迁移到另外一个领域;
4)上下文的可扩展性:实体分析系 统须要可以处理不一样的上下文,并针对不一样上下文的特定自适应的改进自身。