Fine-Grained Entity Recognition 论文的一点笔记

时间 2019-12-15

标签 fine grained entity recognition 论文一点 1点笔记繁體版

原文原文链接

主要的task:从天然语言句子中发现所提到的实体的类型信息.算法

阻碍细粒度实体识别器开发的三个挑战和解决方法：学习

1.标记集的选择：经过管理一组112个基于Freebase类型的独特标记来解决这个问题网站

2.为标签建立一个训练集：编码

　　Labeled text from Wikipedia:利用Wikipedia文本中的锚连接，用适当的标记自动标记实体段。设计

　　CRF for segmentation: 使用这个启发式标记的训练数据来训练一个用于分割的条件随机场（CRF）模型用于分割（识别提到的实体的文本的边界）。ip

3.为分段的说起内容分配标签：使用一个自适应感知器算法来解决这个多类多标签问题。开发

FIGER系统设计：io

标记集管理：社区

实体标记的第一步是定义一组类型。虽然在建立一个全面的标签集方面已经作了一些努力(Sekine 2008)，可是研究社区尚未达成共识。另外一方面，整理知识库(如Freebase)提供了数千种类型，用于对网站中的每一个条目/实体进行注释。与(Sekine 2008)中设置的类型相比，Freebase类型的优势是:1)世界上实体的覆盖面更广，2)容许包含多个重叠类型的实体。例如，克林特·伊斯特伍德能够同时被诠释为演员和导演。监控

启发式标记数据的生成和学习算法：

为了有效地学习标记器，咱们须要大量的标记数据。对于这个新定义的标记集，不存在这样一组标记数据。以前的研究人员已经在一个语料库中手工标记了每一个提到的内容，并考虑了实体类型，可是这个过程很是昂贵，只有一小部分训练语料库是实用的。相反，咱们使用远程监控，这是全自动的，所以是可伸缩的(Lengauer et al. 1999)。具体地说，咱们利用以相似于诺斯曼等人(2008)的方式从维基百科文本锚连接编码的信息。为每一个链接段m一个句子中,咱们发现相应的维基百科条目em经过锚的连接,其原始的类型从毒品和映射到tm T使用标记集。咱们把non-sentential启发式的句子,如阈值逗号和分号的数量一个句子中去。咱们还从Wikipedia中删除了功能性页面，例如列表和类别页面。所以，这个过程使用标记集T从Wikipedia自动注释句子。