《A hybrid system for entity recognition ...》阅读笔记

A hybrid system for entity recognition from Chinese clinical text算法

哈工大的汤步洲副教授带队参加CCKS2017测评任务——中文临床医疗文本命名实体识别,并得到了第一名的好成绩:F1 Score在严格和松弛两个标准下分别为91.08%和94.26%.网络

在摘要中,做者提出了一种混合系统,它将Rule、CRF、RNN、带特征的RNN四种方法融合在一块儿,并在最后添加一个投票机制。下图是系统的架构:架构

Rule-based Method机器学习

做者对每一类实体(任务中规定为实体类别有身体部位、疾病、症状、检查、手术和药品等)都构建了词典,数据来源与百度百科和寻医问药。而后,基于这些词典构建了规则来识别实体的模式(pattern)。好比“右侧小脑”一词,“小脑”会被词典匹配标识出来,“右侧”经过规则扩展出来。再好比,“有心脏病病史”中“心脏病”会根据“有...病史”这一规则抽取出来。ide

CRF-based Method(这一块不是很懂)工具

使用CRF++工具,使用的特征包括:n-gram(n元语法),radical feature,spelling feature(拼写特征),word segmentation(分词),part-of-speech(词性),section head(小节头),relation feature(关系特征),distributed representation of word(词的分布表示),rule feature(规则特征)等等。学习

RNN-based Method测试

暂时不写blog

Voting and Self-trainingit

投票机制很好理解,只有当一个候选实体被至少两种方法选中,它才会被选择为命名实体。而自训练是由于大赛组委除了给了一个标注的训练集,还给了一个没有标记的数据集,做者在这个未标记的数据集上分别运行以上四个方法,而后根据投票机制得出最终结果,并把这个做为第二份训练数据集。最后将原始训练集与第二份训练集合并,获得新的、更大的训练集。在上面完成训练后,再标注测试集。

实验

为了不分词工具在分词时的实体边界错误,实验直接把句子划分红汉字。而后用“BIOES”(B-begin,I-inside,O-outside,E-end,S-single)标签来表示实体。对于神经网络模型,做者使用随机梯度降低算法来做参数估计,并使用word2vec工具从训练集和未标记数据集中学习并获得训练前汉字的嵌入。特征表示(feature representation)随机从范围为[-1,1]的均匀分布中初始化获得。

结论

结论是,在上述几个独立的方法中,BI-LSTM表现得比Rule-based和CRF都要好。使用未标记数据集做自训练,在严格标准下基于机器学习的方法的F1 Score会提升1%。

相关文章
相关标签/搜索