ACL2019--针对部分标注数据的NER

Named Entity Recognition with Partially Annotated Training Data论文笔记

1. Introduction

在一些语料资源匮乏的语种中,可用的数据可能只是部分标注的(部分NE正确标注,部分NE被标注为O),以下图所示:
image.png算法

其中标签为NE的token可视为positive instance,标签为O的的token被视为negtive instance,被错分为O的NE就称为False Negative。本文提出了一种基于约束驱动的迭代算法(constraint-driven iterative algorithm)来学习发现噪声数据中的Negative False样例并下降他们的权重,从而下降噪声在训练时对NER模型的影响。网络

2. Content

2.1 Constrained Binary Learning

本文提出的方法称为CBL,与之类似的已有工做为CoDL:Constraint Driven Learning(Chang et al, 2007)。该方法的目的是对全部标记为O的tokens赋予一个权重,false negative的具备较低(接近0)的权重,而其它O则具备较高的权重(接近1)。学习

解决训练样本中带有噪声的方法通常有两种:
(1)找到false negative样例并更正他们的标签。
(2)找到false negative样例并剔除他们。
本文采用了第(2)种方法,这是因为O标签的token在训练数据集中占据多数,剔除一部分并不会形成问题。spa

CBL分为两个阶段:
(1)模仿CoDL,采用约束循环算法训练一个二元分类器$\lambda$,训练流程是一个train-predict-infer循环,以下所示:
image.png
(2)使用训练好的二元分类器$\lambda$对每一个样例赋予权重,公式以下:blog

$$ v_i= \begin{cases} 1.0 & if \ x_i \in P\\ P_\lambda(y_i=O|x_i) & if \ x_i \in N\\ \end{cases} $$token

2.2 NER with CBL

本文的一个贡献是上述流程的inference step(第6行),使用了Integer Linear Program(ILP),其中约束是基于实体比例b(entity ratio),公式为:
$$b = \frac{|P|}{|P| + |N|}$$
已有工做显示,在fully-annotated数据集中实体率通常为$0.09 \pm 0.05$。ci

对于带权重的训练集,实体率可用以下公式计算:
$$b = \frac{|P|}{|P| + \sum_{i \in N}v_i}$$
还能够经过乘于一个$\gamma$因子来修改实体率,公式以下:
$$b^* = \frac{|P|}{|P| + \gamma\sum_{i \in N}v_i}$$
可计算$\gamma$为:
$$\gamma = \frac{(1-b^{*})|P|}{b^*\sum_{i \in N}v_i}$$
为了得到目标实体率$b^*$,咱们能够将$N$中样例权重乘于放缩因子$\gamma$,获得:
$$v^* = \gamma v_i$$资源

2.3 Constraints and Stopping Condition

约束条件ILP以下图所示:
image.png
等式(8)中$y_{0i}$和$y_{1i}$分别表示token $i$对应的是negative仍是positive标签。$C_{0i}$和$C_{1i}$根据二元分类器$\lambda$的最后一次预测分数获得。$\delta$表示容许较小的软间隔,$\xi \geq 0.99$。hash

2.4 NER Models

NER模型使用了如下两种:
(1)非神经网络模型:Cogcomp NER(Ratinov and Roth, 2009; Khashabi et al., 2018),使用了Ratinov and D. Roth. 2009. Design challenges and misconceptions in named entity recognition中的特征,更改了权重更新公式:
$$\textbf{w} = \textbf{w} + \alpha v_iy_i(\textbf{w}^Tx_i)$$
(2)神经网络模型:基于BiLSTM-CRF,为了将权重加入到CRF训练中,参考了Zhanming Jie, et al. 2019. Better modeling of incomplete annotations for named entity recognition的方法,公式以下:
image.pngit

3. Datasets

使用了以下8中语言的数据集,并根据如下两种人工扰动(Artificial Perturbation)策略模拟噪声:
(1)下降recall,经过将某些实体所有替换成O获得,直到获得知足要求的recall;
(2)下降precision,在随机的起始位置而且选择随机1-3的长度做为一个NE,直到获得知足要求precision。
image.png

4. Summary

本文提出了一种基于约束驱动的迭代算法CBL对部分标注数据赋予权重,以下降错误分类的Negative False样例在训练NER模型时的影响。