在解了知识图谱的全貌以后,咱们如今慢慢的开始深刻的学习知识图谱的每一个步骤。今天介绍知识图谱里面的NER的环节。html
命名实体识别(Named Entity Recognition,简称NER),是指识别文本中具备特定意义的实体,主要包括人名、地名、机构名、专有名词等。一般包括两部分:(1)实体边界识别;(2) 肯定实体类别(人名、地名、机构名或其余)。算法
NER当前并不算是一个大热的研究课题,由于学术界部分学者认为这是一个已经解决的问题。固然也有学者认为这个问题尚未获得很好地解决,缘由主要有:命名实体识别只是在有限的文本类型(主要是新闻语料中)和实体类别(主要是人名、地名、组织机构名)中取得了不错的效果;与其余信息检索领域相比,实体命名评测预料较小,容易产生过拟合;命名实体识别更侧重高召回率,但在信息检索领域,高准确率更重要;通用的识别多种类型的命名实体的系统性能不好。网络
中文的命名实体识别与英文的相比,挑战更大,目前未解决的难题更多。英语中的命名实体具备比较明显的形式标志,即实体中的每一个词的第一个字母要大写,因此实体边界识别相对容易,任务的重点是肯定实体的类别。和英语相比,汉语命名实体识别任务更加复杂,并且相对于实体类别标注子任务,实体边界的识别更加困难。框架
汉语命名实体识别的难点主要存在于:dom
当前命名实体识别的主要技术方法分为:基于规则和词典的方法、基于统计的方法、两者混合的方法、神经网络的方法等。机器学习
基于规则的方法多采用语言学专家手工构造规则模板,选用特征包括统计信息、标点符号、关键字、指示词和方向词、位置词(如尾字)、中心词等方法,以模式和字符串相匹配为主要手段,这类系统大多依赖于知识库和词典的创建。分布式
基于统计机器学习的方法主要包括:隐马尔可夫模型(HiddenMarkovMode,HMM)、最大熵(MaxmiumEntropy)、支持向量机(Support VectorMachine,SVM)、条件随机场(ConditionalRandom Fields)。性能
天然语言处理并不彻底是一个随机过程,单独使用基于统计的方法使状态搜索空间很是庞大,必须借助规则知识提早进行过滤修剪处理。目前几乎没有单纯使用统计模型而不使用规则知识的命名实体识别系统,在不少状况下是使用混合方法,主要包括:学习
近年来,随着硬件能力的发展以及词的分布式表示(word embedding)的出现,神经网络成为能够有效处理许多NLP任务的模型。主要的模型有NN/CNN-CRF、RNN-CRF、LSTM-CRF。翻译
神经网络能够分为如下几个步骤。
从语言分析的全过程来看,命名实体识别属于词法分析中未登陆词识别的范畴。命名实体识别是未登陆词中数量最多、识别难度最大、对分词效果影响最大的问题,同时它也是信息抽取、信息检索、机器翻译、问答系统等多种天然语言处理技术必不可少的组成部分。