ACL2019--针对部分标注数据的NER

时间 2020-09-29

标签 acl2019 acl 针对部分标注数据 ner 繁體版

原文原文链接

Named Entity Recognition with Partially Annotated Training Data论文笔记

1. Introduction

在一些语料资源匮乏的语种中，可用的数据可能只是部分标注的（部分NE正确标注，部分NE被标注为O），以下图所示：
算法

其中标签为NE的token可视为positive instance，标签为O的的token被视为negtive instance，被错分为O的NE就称为False Negative。本文提出了一种基于约束驱动的迭代算法（constraint-driven iterative algorithm）来学习发现噪声数据中的Negative False样例并下降他们的权重，从而下降噪声在训练时对NER模型的影响。网络

2. Content

2.1 Constrained Binary Learning

本文提出的方法称为CBL，与之类似的已有工做为CoDL：Constraint Driven Learning（Chang et al, 2007）。该方法的目的是对全部标记为O的tokens赋予一个权重，false negative的具备较低（接近0）的权重，而其它O则具备较高的权重（接近1）。学习

解决训练样本中带有噪声的方法通常有两种：
（1）找到false negative样例并更正他们的标签。
（2）找到false negative样例并剔除他们。
本文采用了第（2）种方法，这是因为O标签的token在训练数据集中占据多数，剔除一部分并不会形成问题。spa

CBL分为两个阶段：
（1）模仿CoDL，采用约束循环算法训练一个二元分类器$\lambda$，训练流程是一个train-predict-infer循环，以下所示：

（2）使用训练好的二元分类器$\lambda$对每一个样例赋予权重，公式以下：blog

$$ v_i= \begin{cases} 1.0 & if \ x_i \in P\\ P_\lambda(y_i=O|x_i) & if \ x_i \in N\\ \end{cases} $$token

2.2 NER with CBL

本文的一个贡献是上述流程的inference step（第6行），使用了Integer Linear Program（ILP），其中约束是基于实体比例b（entity ratio），公式为：
$$b = \frac{|P|}{|P| + |N|}$$
已有工做显示，在fully-annotated数据集中实体率通常为$0.09 \pm 0.05$。ci

对于带权重的训练集，实体率可用以下公式计算：
$$b = \frac{|P|}{|P| + \sum_{i \in N}v_i}$$
还能够经过乘于一个$\gamma$因子来修改实体率，公式以下：
$$b^* = \frac{|P|}{|P| + \gamma\sum_{i \in N}v_i}$$
可计算$\gamma$为：
$$\gamma = \frac{(1-b^{*})|P|}{b^*\sum_{i \in N}v_i}$$
为了得到目标实体率$b^*$，咱们能够将$N$中样例权重乘于放缩因子$\gamma$，获得：
$$v^* = \gamma v_i$$资源

2.3 Constraints and Stopping Condition

约束条件ILP以下图所示：

等式（8）中$y_{0i}$和$y_{1i}$分别表示token $i$对应的是negative仍是positive标签。$C_{0i}$和$C_{1i}$根据二元分类器$\lambda$的最后一次预测分数获得。$\delta$表示容许较小的软间隔，$\xi \geq 0.99$。hash

2.4 NER Models

NER模型使用了如下两种：
（1）非神经网络模型：Cogcomp NER(Ratinov and Roth, 2009; Khashabi et al., 2018)，使用了Ratinov and D. Roth. 2009. Design challenges and misconceptions in named entity recognition中的特征，更改了权重更新公式：
$$\textbf{w} = \textbf{w} + \alpha v_iy_i(\textbf{w}^Tx_i)$$
（2）神经网络模型：基于BiLSTM-CRF，为了将权重加入到CRF训练中，参考了Zhanming Jie, et al. 2019. Better modeling of incomplete annotations for named entity recognition的方法，公式以下：
it

3. Datasets

使用了以下8中语言的数据集，并根据如下两种人工扰动（Artificial Perturbation）策略模拟噪声：
（1）下降recall，经过将某些实体所有替换成O获得，直到获得知足要求的recall；
（2）下降precision，在随机的起始位置而且选择随机1-3的长度做为一个NE，直到获得知足要求precision。

4. Summary

本文提出了一种基于约束驱动的迭代算法CBL对部分标注数据赋予权重，以下降错误分类的Negative False样例在训练NER模型时的影响。