主要的task:从天然语言句子中发现所提到的实体的类型信息.算法
阻碍细粒度实体识别器开发的三个挑战和解决方法:学习
1.标记集的选择:经过管理一组112个基于Freebase类型的独特标记来解决这个问题网站
2.为标签建立一个训练集:编码
Labeled text from Wikipedia:利用Wikipedia文本中的锚连接,用适当的标记自动标记实体段。设计
CRF for segmentation: 使用这个启发式标记的训练数据来训练一个用于分割的条件随机场(CRF)模型用于分割(识别提到的实体的文本的边界)。ip
3.为分段的说起内容分配标签:使用一个自适应感知器算法来 解决这个多类多标签问题。开发
FIGER系统设计:io
标记集管理:社区
实体标记的第一步是定义一组类型。虽然在建立一个全面的标签集方面已经作了一些努力(Sekine 2008),可是研究社区尚未达成共识。另外一方面,整理知识库(如Freebase)提供了数千种类型,用于对网站中的每一个条目/实体进行注释。与(Sekine 2008)中设置的类型相比,Freebase类型的优势是:1)世界上实体的覆盖面更广,2)容许包含多个重叠类型的实体。例如,克林特·伊斯特伍德能够同时被诠释为演员和导演。监控
启发式标记数据的生成和学习算法:
为了有效地学习标记器,咱们须要大量的标记数据。对于这个新定义的标记集,不存在这样一组标记数据。以前的研究人员已经在一个语料库中手工标记了每一个提到的内容,并考虑了实体类型,可是这个过程很是昂贵,只有一小部分训练语料库是实用的。相反,咱们使用远程监控,这是全自动的,所以是可伸缩的(Lengauer et al. 1999)。具体地说,咱们利用以相似于诺斯曼等人(2008)的方式从维基百科文本锚连接编码的信息。为每一个链接段m一个句子中,咱们发现相应的维基百科条目em经过锚的连接,其原始的类型从毒品和映射到tm T使用标记集。咱们把non-sentential启发式的句子,如阈值逗号和分号的数量一个句子中去。咱们还从Wikipedia中删除了功能性页面,例如列表和类别页面。所以,这个过程使用标记集T从Wikipedia自动注释句子。