编者按git
北京百分点信息科技有限公司是国内最先布局国际市场、并成功探索出一条海外之路的数据智能技术企业,目前百分点已服务海外多个国家,向亚洲、非洲、拉美等多个国家和地区提供国家级数据智能解决方案,帮助当地政府实现数字化和智能化转型,对当地产生深远影响。全球存在着几千种语言,这是天然语言处理研究者们的巨大噩梦,由于大多数语言都是数据稀疏的,研究者找不到足够多的数据来单独训练成熟模型。不一样于国内认知智能产品以中文为主,百分点为海外国家提供服务就必须解决多语种NLP的难题。本文中咱们将会详细介绍目前多语种NLP经常使用的工具、前沿的算法以及百分点在实际业务中的实验结果等。github
全球存在着几千种语言,这就对NLP研究者带来了巨大的难题,由于在一个语种上训练的模型每每在另一个语种上彻底无效,并且目前的NLP研究以英语为主,不少其余语种上面临着标注语料严重不足的困境。在跨语种NLP研究方面,业界已经作了很多研究,比较有表明性的有polyglot、以及近年来比较火的基于深度迁移学习的Multilingual BERT、XLM、XLMR等。算法
Polyglot最先是由AboSamoor在2015年3月16日在GitHub上开源的项目,支持众多语种的分词、实体识别、词性标注、情感分析等任务。网络
以NER任务为例,Polyglot在实现某个语种的NER任务时,其实现方式大体为:首先基于该语种的Wikipedia数据训练该语种的分布式词向量;而后根据Wikipedia连接结构和Freebase属性自动生成NER的标注数据;最后把NER当作一个word级别的分类任务,经过一个浅层的神经网络进行学习。架构
Polyglot虽然能实现多语种的多个NLP任务,可是在实际应用中的效果并不理想,缘由可能有如下几个方面:分布式
a. Polyglot是经过对多个单语种的数据分别进行对应任务的学习,并不支持跨语种的NLP任务;ide
b. Polyglot是经过Wikipedia连接结构和Freebase属性来生成一些NLP任务的标注数据,可能存在生成的标注数据质量不高的问题;工具
c. Polyglot在一些NLP任务中使用的模型是浅层的神经网络,有进一步的提高空间。布局
BERT抛弃了传统的LSTM,采用特征抽取能力更强的Transformer做为编码器,并经过MLM(Masked Language Model, 遮掩语言模型)和NSP(Next-Sentence Predict)两个预训练任务,在海量数据上进行学习,相较于普通的语言模型,可以学习到更好的文本表示。BERT采用pre-train+fine-tuning的方式,对于一个具体NLP任务,只需对BERT预训练阶段学习到的文本表示进行 fine-tuning就能达state-of-the-art的效果。性能
2.1 Transformer
Transformer模型是2018年5月提出的一种新的架构,能够替代传统RNN和CNN,用来实现机器翻译。不管是RNN仍是CNN,在处理NLP任务时都有缺陷。CNN是其先天的卷积操做不太适合处理序列化的文本,RNN是不支持并行化计算,很容易超出内存限制。下图是transformer模型的结构,分红左边encoder和右边的decoder,相较于常见的基于RNN+attention的encoder-decoder之间的attention,还多出encoder和decoder内部的self-attention。每一个attention都有multi-head特征,multi-head attention将一个词的vector切分红h个维度,能够从不一样的维度学到不一样的特征,相较于全体空间放到一块儿更加合理。最后,经过position encoding加入没考虑过的位置信息。
图1.transformer结构
BERT中使用transformer的encoder部分做为编码器,base版和large版分别使用了12层和24层的transformer encoder。
图2. BERT结构
2.2 MLM
在BERT中,提出了一种叫作MLM的真正的双向语言模型。不像传统语言模型那样给定已经出现过的词,去预测下一个词,只能学习单向特征,MLM是直接把整个句子的一部分词(随机选择)遮掩住(masked),而后让模型利用这些被遮住的词的上下文信息去预测这些被遮住的词。遮掩方法为:有80%的几率用“[mask]”标记来替换,有10%的几率用随机采样的一个单词来替换,有10%的几率不作替换。
2.3 NSP
BERT另一个创新是在双向语言模型的基础上增长了一个句子级别的连续性预测任务。这个任务的目标是预测两个句子是不是连续的文本,在训练的时候,输入模型的第二个片断会以50%的几率从所有文本中随机选取,剩下50%的几率选取第一个片断的后续的文本。考虑到不少NLP任务是句子关系判断任务,单词预测粒度的训练到不了句子关系这个层级,增长这个任务有助于下游句子关系判断任务。
Multilingual BERT即多语言版本的BERT,其训练数据选择的语言是维基百科数量最多的前100种语言。每种语言(不包括用户和talk页面)的整个Wikipedia转储都用做每种语言的训练数据。可是不一样语言的数据量大小变化很大,通过上千个epoch的迭代后模型可能会在低资源语种上出现过拟合。为了解决这个问题,采起在建立预训练数据时对数据进行了指数平滑加权的方式,对高资源语言(如英语)将进行欠采样,而低资源语言(如冰岛语)进行过采样。
Multilingual BERT采起wordpiece的分词方式,共造成了110k的多语种词汇表,不一样语种的词语数量一样采起了相似于训练数据的采样方式。对于中文、日文这样的字符之间没有空格的数据,采起在字符之间添加空格的方式以后进行wordpiece分词。
在XNLI数据集(MultiNLI的一个版本,在该版本中,开发集和测试集由翻译人员翻译成15种语言,而训练集的翻译由机器翻译进行)上Multilingual BERT达到了SOTA的效果。
图3. Multilingual BERT在XNLI上的效果
上面实验结果的前两行是来自XNLI论文的基线,后面四行是使用Multilingual BERT获得的结果。mBERT-Translate Train是指将训练集从英语翻译成其它语种,因此训练和测试都是用其它语种上进行的。mBERT-Translate Test是指XNLI测试集从其它语种翻译成英语,因此训练和测试都是用英语进行的。Zero Shot是指对mBERT经过英语数据集进行微调,而后在其它语种的数据集中进行测试,整个过程当中不涉及到翻译。
XLM是Facebook提出的基于BERT进行优化的跨语言模型。尽管Multilingual BERT在超过100种语言上进行预训练,但它的模型自己并无针对多语种进行过多优化,大多数词汇没有在不一样语种间共享,所以能学到的跨语种知识比较有限。XLM在如下几点对Multilingual BERT进行了优化:
a. XLM的每一个训练样本包含了来源于不一样语种但意思相同的两个句子,而BERT中一条样本仅来自同一语言。BERT的目标是预测被masked的token,而XLM模型中能够用一个语言的上下文信息去预测另外一个语言被masked的token。
b. 模型也接受语言ID和不一样语言token的顺序信息,也就是位置编码。这些新的元数据能帮模型学习到不一样语言的token间关系。
XLM中这种升级版的MLM模型被称做TLM(Translation Language Model, 翻译语言模型)。XLM在预训练时同时训练了MLM和TLM,而且在二者之间进行交替训练,这种训练方式可以更好的学习到不一样语种的token之间的关联关系。在跨语种分类任务(XNLI)上XLM比其余模型取得了更好的效果,而且显著提高了有监督和无监督的机器翻译效果。
XLMR(XLM-RoBERTa)同是Facebook的研究成果,它融合了更多的语种更大的数据量(包括缺少标签的的低资源语言和未标记的数据集),改进了之前的多语言方法Multilingual BERT,进一步提高了跨语言理解的性能。同BERT同样,XLMR使用transformer做为编码器,预训练任务为MLM。XLMR主要的优化点有三个:
a. 在XLM和RoBERTa中使用的跨语言方法的基础上,增长了语言数量和训练集的规模,用超过2TB的已通过处理的CommonCrawl 数据以自我监督的方式训练跨语言表示。这包括为低资源语言生成新的未标记语料库,并将用于这些语言的训练数据量扩大两个数量级。下图是用于XLM的Wiki语料库和用于XLMR的CommonCrawl语料库中出现的88种语言的数据量,能够看到CommonCrawl数据量更大,尤为是对于低资源语种。
图4. XLMR和XLM的训练数据对比
b. 在fine-tuning阶段,利用多语言模型的能力来使用多种语言的标记数据,以改进下游任务的性能。使得模型可以在跨语言基准测试中得到state-of-the-art的结果。
c. 使用跨语言迁移来将模型扩展到更多的语言时限制了模型理解每种语言的能力,XLMR调整了模型的参数以抵消这种缺陷。XLMR的参数更改包括在训练和词汇构建过程当中对低资源语言进行上采样,生成更大的共享词汇表,以及将总体模型容量增长到5.5亿参数。
XLMR在多个跨语言理解基准测试中取得了SOTA的效果,相较于Multilingual BERT,在XNLI数据集上的平均准确率提升了13.8%,在MLQA数据集上的平均F1得分提升了12.3%,在NER数据集上的平均F1得分提升了2.1%。XLMR在低资源语种上的提高更为明显,相对于XLM,在XNLI数据集上,斯瓦希里语提高了11.8%,乌尔都语提高了9.2%。
先明确两个概念,单语种任务:训练集和测试集为相同语种,跨语种任务:训练集和测试集为不一样语种。
6.1 主题分类任务上效果
主题分类是判断一段文本是属于政治、军事等10个类别中哪个。实验中分别使用XLMR和Multilingual BERT在1w的英语数据上进行训练,而后在英语、法语、泰语各1万的数据上进行测试。能够看到不管是单语种任务仍是跨语种任务上,XLMR的效果都优于Multilingual BERT,跨语种任务上的优点更明显。
6.2 情感分类任务上的效果
情感分类任务是判断一段文本所表达的情感是正面、负面或中立。实验中分别对XLMR和BERT作了单语种任务的对比和跨语种任务的对比,能够看到在单语种任务中BERT和XLMR的效果差异不明显,而在跨语种任务中XLMR明显优于Multilingual BERT。
6.3 NER任务上的效果
NER任务是抽取一段文本中实体,实体包括人名、地名、机构名。在该实验中,XLMR表现通常,无论是单语种任务仍是跨语种任务上,效果比Multilingual BERT要略差一些。
Multilingual BERT使用特征抽取能力更强的transformer做为编码器,经过MLM和NSP在超过100种语言上进行预训练,但它的模型自己并无针对多语种进行过多优化。而XLM对Multilingual BERT进行了优化,主要是增长了TML预训练任务,使模型能学习到多语种token之间的关联关系。XLMR结合了XLM和RoBERTa的优点,采用了更大的训练集,而且对低资源语种进行了优化,在XNLI、NER CoNLL-200三、跨语种问答MLQA等任务上,效果均优于Multilingual BERT,尤为是在Swahili、Urdu等低资源语种上效果提高显著。
在百分点实际业务数据的测试中,目前已经在英语、法语、阿语等常规语种上进行测试,不管是单语种任务仍是跨语种任务,总体来看XLMR的效果要优于Multilingual BERT。想要实如今一种语种上进行模型训练,而后直接在另一种语种上进行预测这样的跨语种迁移,仍须要相关领域进一步深刻的探索。
Google近期发布了一个用于测试模型跨语种性能的基准测试Xtreme,包括了对12种语言家族的40种语言进行句子分类、句子检索、问答等9项任务。在Xtreme的实验中,先进的多语言模型如XLMR在大多数现有的英语任务中已达到或接近人类的水平,但在其它语言尤为是非拉丁语言的表现上仍然存在巨大差距。这也代表,跨语言迁移的研究潜力很大。不过随着Xtreme的发布,跨语种NLP的研究确定也会加速,一些激动人心的模型也会不断出现,让咱们共同期待。
参考资料
[1] https://github.com/google-research/bert/blob/master/multilingual.md
[2] https://static.aminer.cn/misc/pdf/1911.02116.pdf
[3] https://www.lyrn.ai/2019/02/11/xlm-cross-lingual-language-model/