PaddlePaddle升级解读 | 工业级中文 NLP 工具集PaddleNLP

近年来随着大数据、深度学习等技术的快速发展,加之与天然语言处理技术密切结合,语言智能得到了持续的发展和突破,并愈来愈多地应用于各个行业。百度在天然语言处理技术方面,已有了十几年的技术累积和前瞻探索,而且不断将核心技术高效落地产业实践。git


为了适应全面丰富的 NLP 任务,方便更多开发者灵活插拔尝试多种网络结构,而且让应用最快速达到工业级效果。github


今年4月23日,百度正式开放了工业级中文 NLP 工具与预训练模型集——网络

PaddleNLP(nlp.baidu.com/homepage/nlptools)app


PaddleNLP 将天然语言处理领域的多种模型用一套共享骨架代码实现,可大大减小开发者在开发过程当中的重复工做。工具集拥有当前业内效果最好的中⽂语义表示模型和基于用户大数据训练的应用任务模型,模型源于产业实践,达到工业级的应用效果。框架


PaddleNLP 彻底基 PaddlePaddle (www.paddlepaddle.org)开发。PaddlePaddle 是中国首个、也是目前国内惟一开源开放,集核心框架、工具组件和服务平台为一体的端到端开源深度学习平台,其囊括支持面向真实场景应用、达到工业级应用效果的模型,并具有针对大规模数据场景的分布式训练能力、支持多种异构硬件的高速推理引擎。分布式


PaddleNLP 提供依托于百度百亿级大数据的预训练模型,可以极大地方便 NLP 研究者和工程师快速应用。使用者能够用 PaddleNLP 快速实现文本分类、文本匹配、序列标注、阅读理解、智能对话等 NLP 任务的组网、建模和部署,并且能够直接使用百度开源工业级预训练模型进行快速应用。用户在极大地减小研究和开发成本的同时,也能够得到更好的基于工业实践的应用效果。工具


 扎根产业实践,PaddleNLP 为了更好知足开发者需求 


百度在十几年来一直扎根 NLP 技术的产业应用,经过在百度搜索、信息流、百科、贴吧、文库等内部场景的技术积累,加之对外的技术开放与应用,造成了一整套服务于产业实践的 NLP 技术方案。学习


除了保持技术先进,百度也不断关注开发者对 NLP 工具的具体需求,但愿打造一个全面、易用、高效的开源 NLP 工具集,让 NLP 技术有更普遍的落地应用场景。大数据


一个面向完整场景的 NLP 应用系统一般须要对众多 NLP 基础任务进行系统化集成方可完成搭建。与此同时,NLP 任务一般须要针对应用场景作适应性迁移,须要其具有充分的组网方案自由度且可高效率重训。更重要的是,NLP 任务须要经过大量细节调优以知足苛刻的应用需求,非工业级模型难以积累。而百度开源的 PaddleNLP 工具集偏偏是针对这些需求进行开发,可以覆盖丰富的 NLP 任务,具有灵活的应用适应性,并拥有优异的应用效果。优化


 全面、灵活、高效,打造强大的 PaddleNLP 


全面:涵盖应用任务和基础网络,提供丰富任务类型

PaddleNLP 基于十几年的技术积累,提供了全面丰富的中文处理任务,涵盖了文本分类、文本匹配、序列标注、语言表示等多种任务方向,可根据业务需求或实验需求快速选择相应的任务进行使用。


640?wx_fmt=png


灵活:任务与网络解耦,网络灵活可插拔

PaddleNLP 工具集将任务与网络解耦,区分出应用任务层和基础网络层,同类型任务的不一样网络能够实现灵活插拔和快速替换,方便开发者快速针对应用场景作适应性迁移。


640?wx_fmt=gif


高效:强大的工业化预训练模型,打造优异应用效果

拥有当前业内效果最好的中⽂语义表示模型和基于用户大数据训练的应⽤用任务模型,模型效果调整机制源于产业实践,模型应用效果更突出。


百度提供了大量工业化预训练模型,包括语义表示基础模型和基于任务的预训练模型。2019年3月,百度提出知识加强的语义表示模型 ERNIE(Enhanced Representation through kNowledge IntEgration),在包括语言推断、语义类似度、命名实体识别、情感分析、问答匹配等天然语言处理各种任务上,均超越了语义表示模型 BERT 的效果。


640?wx_fmt=png


ERNIE 基于海量百科、新闻、贴吧多源数据进行学习。而且相较于 BERT 学习原始语言信号,ERNIE 直接对先验语义知识单元进行建模,加强了模型语义表示能力。同时,ERINE 建模 Query-Response 对话结构,将对话 Pair 对做为输入,进一步提高模型语义表示能力。


640?wx_fmt=png


ERNIE 以外,百度也开源了针对文本情感分类、对话情绪识别、语义匹配、词法分析、阅读理解等任务场景基于百度海量工业化数据的预训练模型,方便 NLP 工程师针对具体任务进行开发。


640?wx_fmt=png


与此同时,百度还开放了在对话等任务的开放数据集上超越 SOTA 效果的模型网络结构与参数,方便相关领域研究人员快速验证、使用。配合 PaddleHub,用户能够轻松进行下载并更新不一样版本的预训练模型,方便效果迁移与模型调优。


640?wx_fmt=png


除了开放预训练模型,PaddleNLP 还开放了相关任务的评测数据集。这些数据来自于百度真实的工业化场景,可以很好地对模型效果进行评估。


 展望 


PaddleNLP 工具集将依托 Paddle 和百度 NLP 强大的技术保障, 支持更加普遍的任务场景。在不断打磨技术应用效果,优化开发者使用体验的同时,更多、更先进的预训练模型也将会持续不断地发布,欢迎您持续关注。


欢迎您了解更多百度 NLP 开源工具集能力


百度 NLP 开源工具集主页地址:

nlp.baidu.com/homepage/nlptools


百度 NLP 开源工具集 GitHub 地址:

github.com/PaddlePaddle/models/tree/develop/PaddleNLP


百度天然语言处理(Natural Language Processing,NLP)以“理解语言,拥有智能,改变世界”为使命,研发天然语言处理核心技术,打造领先的技术平台和创新产品,服务全球用户,让复杂的世界更简单。

640?wx_fmt=png

本文分享 CSDN - 飞桨PaddlePaddle。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索