百度艾尼（ERNIE）常见问题汇总及解答

时间 2019-11-13

标签百度 ernie 常见问题汇总解答繁體版

原文原文链接

1、ERNIE安装配置类问题

Q1：最适合ERNIE2.0的PaddlePaddle版本是？
A1：PaddlePaddle版本建议升级到1.5.0及以上版本。git

Q2：ERNIE能够在哪些系统上使用?
A2：优化后各个系统都会支持，目前建议在Linux系统使用。
github

2、ERNIE使用类问题

Q1：ERNIE目前能作哪些任务？
A1：（1）基于ERNIE模型Fine-tune后，直接能作的任务以下：工具

词性标注任务，请参考：https://aistudio.baidu.com/aistudio/projectDetail/109660
阅读理解任务，请参考：https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md
分类任务，请参考：https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md
多标签分类，请参考：https://github.com/PaddlePaddle/PaddleHub/tree/release/v1.1.0/demo/multi-label-classification
排序任务；

（2）须要用户在ERNIE的基础上作开发后能作的任务以下：性能

文本生成任务，目前须要用户在ERNIE的基础上开发生成任务的Fine-tune代码。同时咱们也在研发专门适配生成的通用预训练模型，预期效果更好，后续进展请多多关注。
实体关系抽取任务，目前须要用户在ERNIE的基础上开发信息抽取任务的Fine-tune代码。

Q2：ERNIE实现检索功能了吗？
A2：实现了,使用cls embedding或者顶层全部词的表示作pooling当作sentence encoder的输出。

Q3：ERNIE能作信息流推荐吗？
A3：能够，具体来说,能够基于ERNIE 抽取Document和User 的向量做为对文章和用户的语义建模，而后对Document 的语义特征离线创建索引库，在线端根据用户的语义表达去索引库中召回语义相关性较高的文章。

Q4：ERNIE能用于长文本吗？
A4：能够，当前能够考虑将长句拆分，分别输入ERNIE后再拼接的方式使用ERNIE。不过咱们也在研发专门适配长文本的通用预训练模型，后续进展请多多关注。

Q5：ERNIE能够用C++或者Java调用吗？
A5：ERNIE预测时，经过C++调用的接口正在优化中。Java暂不支持。

Q6：ERNIE有没有在本身的corpus上进行预训练的教程？
A6：2.0的中文预训练代码暂时没有开源，能够参考1.0教程。教程连接：
https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md#%E9%A2%84%E8%AE%AD%E7%BB%83-ernie-10。

Q7：ERNIE2.0的中文预训练模型发布了吗？
A7：为了让你们更方便、快捷、高效的使用ERNIE，咱们正在作易用性更强的ERNIE平台化服务工做，届时会与ERNIE2.0模型同步开放给你们，欢迎你们使用。

Q8：ERNIE支持Python3吗？
A8：支持。

Q9：ERNIE都支持哪些语言吗？
A9：目前支持中文简体、英文。
学习

3、ERNIE工具类问题

Q1：ERNIE能作在线服务吗？性能怎么样？
A1：能够。在线服务的性能问题能够经过模型蒸馏的方案解决，咱们ERNIE Tiny 模型也在研发中，能够大幅度提高在线预测性能，ERNIE Tiny模型后续会逐步开源，能够多多关注。优化

在轻量级、模型压缩方面ERNIE将会推出ERNIE Slim技术和ERNIE Tiny模型。其中
ERNIE Slim基于数据蒸馏技术，以大规模无监督语料为桥梁，辅以数据加强和混合策略，利用百倍提速的轻量级DNN模型去蒸馏ERNIE模型，从而达到显著加速的效果，达到工业级上线要求；code

ERNIE Tiny基于模型蒸馏技术，在预训练阶段利用浅层ERNIE模型去蒸馏深层ERNIE模型的输出分布，同时引入subword粒度来减小输入句子长度。预计发布的3层ERNIE Tiny模型相对于ERNIE模型在效果有限降低状况下，速度提高4.2倍左右。orm

Q2：ERNIE有提供相似Bert-as-Service的服务吗？
A2：有。近期（预计11月初）将开源。
blog

4、ERNIE资料类问题

Q1：ERNIE有详细的使用教程么？
A1：有，请参考：https://github.com/PaddlePaddle/ERNIE/blob/develop/README.zh.md排序

Q2：ERNIE的论文下载地址？
A2：https://arxiv.org/abs/1907.12412

Q3：ERNIE的GitHub项目地址？
A3：https://github.com/PaddlePaddle/ERNIE

5、其它问题

Q1：BERT与ERNIE谁更强？
A1：从效果来看，ERNIE的效果领先于BERT。BERT、XLNet等主流方法都强调经过强力的Transformer 直接构建语言模型，而ERNIE 2.0 经过多任务预训练的方法增强模型学到的语言知识。

ERNIE 2.0 经过增量学习的方式更新，也就是说能够经过自定义的NLP 任务微调已训练模型，增强预训练效果。

ERNIE2.0 模型在英语任务上不少都优于BERT 和XLNet，在7 个GLUE 任务上取得了最好的结果；中文任务上，ERNIE 2.0 模型在全部9 个中文NLP任务上全面优于BERT。

Q2：ERNIE效果领先BERT是否得益于更多数据?

A2：否。咱们对比了不一样模型公布的数据量，BERT: 3.3B (tokens), ERNIE:7.9 B (tokens),

XLNet: 32.8B (tokens)，目前版本的数据规模是XLNet的1/4，同时ERNIE 没有使用人工直接标注的数据，全部数据能够经过无监督或者弱监督的方式大量获得。

Q3：ERNIE能够理解为是知识图谱+BERT吗？
A3：不是，ERNIE没有利用图谱信息，而是直接从文本中学习知识。

Q4：ERNIE的多任务持续学习是怎么实现的？
A4：ERNIE2.0 的预训练任务是一个逐步增长的过程，先训练Task1, 而后逐步增长到多个TaskN，多个Task 的训练是按照必定的几率分布对Task 进行采样，好比: 第一个batch 训练Task1,第2个batch 训练Task2 。训练过程当中是经过多机多卡训练，有些卡去训练任务1，有些卡训练任务2。因为目前预训练代码还未开源，用户暂时没法添加新任务作预训练。

-------------------

划重点！！！

扫码关注百度NLP官方公众号，获取百度NLP技术的第一手资讯！

加入ERNIE官方技术交流群（760439550），百度工程师实时为您答疑解惑！

当即前往GitHub（ github.com/PaddlePaddle/ERNIE ）为ERNIE点亮Star，立刻学习和使用起来吧！

最强预告！

11月23日，艾尼（ERNIE）的巡回沙龙将在上海加场，干货满满的现场，行业A级的导师，还有一群志同道合的小伙伴，还在等什么？感兴趣的开发者们赶忙扫描下方“二维码”或点击“连接”报名参加吧！

报名连接：https://iwenjuan.baidu.com/?code=vc78lp