BERT家族:ERNIE

ERNIE

论文:《ERNIE: Enhanced Representation from kNowledge IntEgration》

论文地址:https://arxiv.org/pdf/1904.09223v1

作者/机构:百度

年份:2019.3

ERNIE对Bert的改进主要体现在mask的方式上,将中文单字的mask改为连续的实体词和短语mask,事Bert能够学习到真实世界的语义知识信息,以此来提高Bert的性能。

另外,之后清华也出了一个版本的ERNIE,它将知识图谱融入到语言模型的预训练之中,使用TransE来获取知识图谱中的实体向量,然后将实体向量嵌入到BERT中。其改进点如下:

(1)mask字改为mask词

Bert是随机mask输入序列中的字,这样能很简单地推测出字之间的搭配,这样会让本来应该有强相关的一些连在一起的字词,在训练时是割裂开来的。这对于中文文本中广泛包含多个字的实体、短语等单一的语义的词,俘获其语义信息是欠佳的。

因而ERNIE在输入为字的基础上,对输入序列中的短语和实体类的词实体词进行连续mask,这样一来短语信息就会融入到字的 embedding中了。

这样做的目的是:使模型能够学习到实体、短语的语义信息,训练完成后字的embedding就具有了实体、短语的语义信息了,这对于有大量短语、实体的文本任务(特别是实体识别任务)是非常友好。

(2)使用很多知识类的中文语料进行预训练

在Bert的基础上,ERNIE预训练的语料引入了多源数据知识,包括了中文维基百科,百度百科,百度新闻和百度贴吧(可用于对话训练)。

这样做的目的是:使用多源数据,增大了数据的多样性,且多源数据中包含了海量事实类知识,预训练的模型能够更好地建模真实世界的语义关系。

更多NLP相关技术干货,请关注我的微信公众号【NLP有品