最强中文NLP预训练模型艾尼ERNIE官方揭秘【附视频】

“最近恰好在用ERNIE写毕业论文”git

“感受还挺厉害的”github

“为何叫ERNIE啊,这名字有什么深意吗?”算法

“我想让艾尼帮我写做业”框架

看了上面火热的讨论,你必定很好奇“艾尼”、“ERNIE”究竟是个啥?分布式

天然语言处理( Natural Language Processing,简称NLP )被誉为人工智能“皇冠上的明珠”。NLP为各种企业及开发者提供用于文本分析及挖掘的核心工具,已经普遍应用在电商、文化娱乐、金融、物流等行业客户的多项业务中。工具

而艾尼(ERNIE),可谓是目前NLP领域的最强中文预训练模型。学习

9月5日,百度资深研发工程师龙老师,就经过直播带开发者走近最强中文NLP预训练模型ERNIE,在线上解读了一系列艾尼ERNIE的强大特性,并现场与同为NLP模型的BERT直接PK,让开发者连连感叹,但愿能把ERNIE运用到本身的工做与生活之中。测试

错过了直播不要紧,让咱们来回顾一下课上都讲了什么~优化

什么是艾尼(ERINE)?

艾尼(ERNIE)是百度自研的持续学习语义理解框架,该框架支持增量引入词汇(lexical)、语法 (syntactic) 、语义(semantic)等3个层次的自定义预训练任务,可以全面捕捉训练语料中的词法、语法、语义等潜在信息。人工智能

这些任务经过多任务学习对模型进行训练更新,每当引入新任务时,该框架可在学习该任务的同时,不遗忘以前学到过的知识。这也意味着,该框架能够经过持续构建不一样的预训练任务,持续提高模型效果。所以ERNIE具备了更好的语义理解能力。

ERNIE 2.0持续学习语义理解框架

ERNIE好用么?

好很差用,摆事实才知道。

直播环节中,龙老师直接用填空题的形式展现了ERNIE与BERT在填空方面的表现。

例如题目:中国历史上惟一的正统女皇帝是[?][?][?],下面是直播中两种算法的表现:

ERNIE的结果是“武则天”,而BERT的结果是“宋太帝”。ERNIE能输出“武则天”说明它确实能学到“武则天”与“女皇帝”之间的关联。

而BERT输出的“宋太帝”虽然每一个字“宋”、“太”、“帝”都与“皇帝”相关,可是连在一块儿就不是一个完整的词,并且也不能与“女皇帝”的造成照应。

再如,陈晓的妻子是[?][?][?]

ERNIE用答案向咱们证实了本身不仅懂百科,也懂八卦。

经过上面的DEMO测试,咱们也就引出了这样一个问题:

 ERNIE和BERT最大的区别是什么?

ERNIE1.0可以充分学习词语、短语、命名实体识别中字与字之间的关系,将其总体进行掩码。而BERT不具有这样的能力。ERNIE2.0则经过持续构造辅助任务让ERNIE进行学习,会的任务越多能力越强大。

这与BERT只靠一两个任务进行预训练的思路是彻底不一样的。就像小学生作题,一直只练一种题型确定是不行的,须要多种题型都会作,既要有专项突破也要有综合练习,这样才能成为真正的学霸。

随着多样的训练数据的增长,ERNIE经过持续学习就可以学得愈来愈好。

ERNIE做为模型,也须要与深度学习框架深度配合,才能实现最佳的效果。百度开源的深度学习框架飞桨(PaddlePaddle)对ERNIE模型有很是好的定制优化,使得其加速比达到77%,能够说是ERNIE背后的神助攻。

ERNIE借助飞桨PaddlePaddle多机分布式训练优点,利用79亿tokens训练数据(约1/4的XLNet 数据)和64张V100(约1/8的XLNet 硬件算力)训练的ERNIE 2.0预训练模型不只实现了在中英文16个任务上的最优效果,并且为开发人员定制本身的NLP 模型提供了方案。

目前,百度开源了ERNIE 2.0的Fine-tuning代码和英文预训练模型。

本次基于艾尼ERNIE的直播,同步在爱奇艺、IT大咖说、BiliBili、虎牙、斗鱼五个平台同步直播,收到了近3W开发者的关注与讨论。

直播回放视频已经上线,欢迎你们继续学习~

回顾ERNIE的原理、优点以及案例,请戳回放视频:

http://play.itdks.com/watch/8591895

在11月,ERNIE的线下培训课程也会在上海、成都等地分别落地,欢迎关注“百度NLP”公众号,关注最新报名信息~

 

划重点!

查看ERNIE模型使用的完整内容和教程,请点击下方连接,建议点击Star收藏到我的主页,方便后续查看。

GitHubhttps://github.com/PaddlePaddle/ERNIE

版本迭代、最新进展都会在GitHub第一时间发布,欢迎持续关注!

也邀请你们加入ERNIE官方技术交流QQ群:760439550,可在群内交流技术问题,会有ERNIE的研发同窗为你们及时答疑解惑。

相关文章
相关标签/搜索