2019年7月,百度ERNIE再升级,发布持续学习的语义理解框架ERNIE 2.0,及基于此框架的ERNIE 2.0预训练模型, 它利用百度海量数据和飞桨(PaddlePaddle)多机多卡高效训练优点,经过深度神经网络与多任务学习等技术,持续学习海量数据和知识。基于该框架的艾尼(ERNIE)预训练模型,已累计学习10亿多知识,包括词法、句法、语义等多个维度的天然语言知识,有很强的通用语义表示能力,适用于各类NLP应用场景,效果提高明显,使用高效、便捷。html
本篇内容教你们如何下载和使用!python
ERNIE 2.0 英文Base 模型git
https://ernie.bj.bcebos.com/ERNIE_Base_en_stable-2.0.0.tar.gzgithub
包含预训练模型参数、词典vocab.txt、模型配置ernie_config.jsonjson
ERNIE 2.0 英文Large 模型网络
https://ernie.bj.bcebos.com/ERNIE_Large_en_stable-2.0.0.tar.gz框架
包含预训练模型参数、词典vocab.txt、模型配置ernie_config.jsonide
中文数据:https://ernie.bj.bcebos.com/task_data_zh.tgz学习
英文数据:因为数据集协议问题,在这里没法直接提供英文数据集。GLUE 的数据下载方式请参考GLUE 主页(https://gluebenchmark.com/tasks)以及GLUE 提供的数据下载代码(https://gist.github.com/W4ngatang/60c2bdb54d156a41194446737ce03e2e)。ui
假设全部数据集下载放置的路径为$GLUE_DATA,将数据下载完毕后,执行
sh ./script/en_glue/preprocess/cvt.sh $GLUE_DATA
将完成全部数据的格式转换,默认转换后的数据会输出到文件夹./glue_data_processed/。
本项目依赖于Paddle Fluid 1.5,请参考安装指南
(https://www.paddlepaddle.org.cn/#quick-start)进行安装。
【重要】安装后,须要及时的将CUDA、cuDNN、NCCL2 等动态库路径加入到环境变量LD_LIBRARY_PATH 之中,不然训练过程当中会报相关的库错误。具体的paddlepaddle配置细节请查阅:
https://www.paddlepaddle.org.cn/documentation/docs/zh/1.5/beginners_guide/quick_start_cn.html
若是您想了解更多的Paddle 的相关信息,例如针对实际问题建模、搭建本身网络等,这里有更多的来自官方的文档供您参考:
ERNIE的其余依赖列在requirements.txt文件中,使用如下命令安装
pip install -r requirements.txt
划重点!
查看ERNIE模型使用的完整内容和教程,请点击下方连接,建议Star收藏到我的主页,方便后续查看。
GitHub:https://github.com/PaddlePaddle/ERNIE
版本迭代、最新进展都会在GitHub第一时间发布,欢迎持续关注!
也邀请你们加入ERNIE官方技术交流QQ群:760439550,可在群内交流技术问题,会有ERNIE的研发同窗为你们及时答疑解惑。