复旦大学邱锡鹏等研究者提出新型分词方法,只有能 Cover 多个分词标准和最新 Transformer 的方法,才是好的中文分词方法。算法
机器之心报道,参与:思源、一鸣。
架构
从不一样的角度看待中文句子,可能使中文分词任务(CWS)的标准彻底不一样。例如「总冠军」既能够当作独立的词,也能理解为「总」和「冠军」两个词。之前这种状况很是难解决,咱们只能定一些字典或规则来增强这些词的划分。并发
但这些应该是分词模型应该要学的呀,咱们不能只关注分词模型在单一标准中的表现,还须要关注不一样分词标准中的共同特性。这些共同特性才是模型须要重点学习的,它们能构建更合理的分词结果。app
鉴于这一点,复旦大学提出了一个简洁而有效的模型,它能适用于多种中文分词标准。这种模型使用共享的全链接自注意力机制,从而能根据不一样的标准进行分词。框架
研究者已经在八个数据集上测试了这种基于 Transformer 的中文分词,它自然使用了多个分词评价标准。结果说明,与单一标准的学习不一样,每一个语料上的表现都获得了显著提高。学习
论文:Multi-Criteria Chinese Word Segmentation with Transformer测试
论文地址:arxiv.org/pdf/1906.12…ui
中文分词难在什么地方编码
和英语不一样,中文句子由连续的汉字构成,词语之间缺少明显的分界线。因为词语被认为是最小的语义单位,所以中文分词任务十分重要。spa
目前中文分词效果最佳的方法是监督学习算法,它们将中文分词任务视为基于汉字的序列标注问题。在这个问题中,每一个汉字都有对应的标签,用于表示词和词之间的分界信息。
然而,构建高质量的带标注中文分词语料面临两个挑战。首先,标注须要语言学专家,成本高昂。其次,现有几个相互冲突的、依据不一样语言学角度的分词标准。
例如,对一个句子,不一样语料的分词标准是不同的,它们每每作不到一致性的分割。
如表 1 中所示,给定句子「林丹赢得总冠军」,在三个经常使用语料中,北大的人民日报语料(PKU)、宾州中文树库(CTB)和微软亚洲研究院(MSRA)使用的标注标准不一样。
如今,大部分中文分词方法集中于提高单一分词标准的表现。若是不能彻底弄清楚使用不一样标准的语料特征,这种研究是浪费资源的。所以,如何高效利用这些(语料)资源依然是一个有挑战性的问题。
之前有解决思路吗?
虽然很大程度上中文分词的难点在于标准不一样,但幸运的是它们之间有一种共性知识。从一种分词标准学到的知识能够给其余语料带来收益。
在本论文以前的研究中,做者们考虑了一种多标准的中文分词学习框架。具体来讲,它们将每一个分词标准视为在多任务学习下的单独任务。在这个多任务学习框架使用一个共享层级,用于提取不一样分词标准下都不变特征。同时有一个内部层级用于提取对应不一样分词标准的特征,这个内部层也是共享的,由于不一样标准常常有重叠的地方。
例如,在表 1 中,CTB 和 MSRA 对词语「林丹」的分词标准是相同的,三个标准对「赢得」的分词是一致的。所以,不一样分词标准间是有相同知识的,模型学习它们也是可能的。
基于 Transformer 的多标准中文分词
论文提出了一个简单的模型,模型可以共享来自多个分词标准中的知识,能够应对多标准中文分词任务。因为 Transformer 的启发,研究人员设计了一种彻底共享的结构。在模型中,共享编码器用于抽取对分词标准敏感的语境特征(criteria-aware contextual features),而共享解码器则用于预测针对标准而不一样的标签(criteria-specific labels)。最终,他们在 8 个不一样的分词标准上进行了测试,使用了 5 个简体和 3 个繁体中文的语料。实验说明,模型能够有效提高在多标准分词中文任务中的表现。
模型架构
在邱锡鹏等研究者的论文中,编码器和解码器能够共享全部的分词标准。惟一的不一样之处在于他们会采用惟一的指示器做为输入,从而分辨不一样的分词标准。以下图 1 展现了研究者提出的方法和之前模型的不一样之处。
以下图二展现了多标准中文分词模型的主要架构,其总体分为嵌入层、编码层和解码层。
嵌入层:嵌入层的目的即将词映射某个向量,除了标准的字符嵌入,研究者还引入了分词标准嵌入、位置嵌入、Bigram 嵌入三种额外信息。其中分词标准嵌入用来指按期望的输出标准;二元语法嵌入用于增强字符级嵌入的能力,从而实现更强的分词效果;最后的位置编码也就是 Transformer 所须要的位置信息了。
编码层:编码层就是一个 Transformer,主要会经过自注意力机制和 Multi-head Attention 模块抽取中文字的语义信息。
解码层:与标准多标准中文分词不一样,新模型的解码层一样是共享的,这主要归功于嵌入层已经将分词标准的相关信息添加到字符上。研究者采用了条件随机场和多层感知机两种解码方式,并发现 CRF 效果要好一些,所以将其做为默认解码层。
实验
从 SIGHAN200 到 SIGHAN2008,实验选择了 8 个中文分词数据集。在它们之中,AS、CITYU 和 CKIP 是繁体中文数据集,而 MSRA、PKU、CTB、NCC 和 SXU 是简体中文。除非另有说明,AS、CITYU 和 CKIP 都先从繁体转换成简体。
表 2 提供了 8 个数据集在预处理后的细节信息。整个实验使用标准的评价方法——评价精度、召回率和 F1 分数。
表 5 展现了模型在 8 个测试集上的表现。
下图 3 展现了 8 中不一样分词标准的二维 PCA 降维结果,它们都是经过本论文的模型学习而来。咱们能够看到,8 种分词标准在嵌入空间会映射到 8 个离散的点,这代表每个分词标准都有所不一样。其中 MSRA 与其它分词标准最为不一样,可能的缘由是 MSRA 将命名实体视为独立的词,这和其它分词标准有很大不一样。