Beyond 预训练语言模型,NLP还须要什么样的知识?

本文分享自百度开发者中心Beyond 预训练语言模型,NLP还须要什么样的知识?html

近年来,深度学习技术已普遍应用于NLP领域,但实际应用效果每每受限于缺少大规模高质量监督样本。2018年末,预训练语言模型横空出世,极大缓解了这个问题,经过“超大规模无监督语料上的预训练语言模型+相对少许的监督样本进行任务精调(fine-tuning)”,能够大幅提高各种NLP任务的效果。机器学习

因为效果显著和应用机制简单,预训练语言模型之前所未有的速度在业界获得普遍应用,各大厂纷纷发布本身的预训练模型。如今,咱们已绝不怀疑预训练语言模型的能力,并坚信它的发展必将持续提高各种NLP任务的效果。可是,对其能力的上限仍有疑问:预训练语言模型能带领咱们完全理解语言吗?工具

预训练语言模型的不足

2020年,GPT-3发布,再一次引起你们对“通用人工智能”的热情。在一开始被GPT-3的效果惊艳以后,GPT-3的不足也暴露出来:虽然GPT-3能自动从海量的无监督语料中学习到丰富的共现知识,并成功应用于下游任务上,但GPT-3并未真正理解语言,它只是成功地记住和拟合了语料。学习

图片.jpg

如上图GPT-3关于眼睛的问答例子所示,若是一个事实没有出如今语料中,预训练语言模型只能经过已经记住的语料分布去泛化,这会致使出现不可控的答案。由于,大量的事实知识是不能泛化的,即便个体是类似的,它们各自的属性值也不能随意互换。举个例子,若是一个模型的训练语料是童话故事,那么它从故事中学到的事实知识(如,太阳是个老爷爷)是没法用于现实世界的。大数据

这天然引出了一个问题,模型没有见过的事实,经过知识去补足它,没法泛化的事实,经过知识去约束它,是否可行呢?这就是知识图谱在尝试解决的问题。优化

用知识弥补模型的不足

知识图谱经过将客观世界中实体、概念及其事实性描述以结构化的方式显示表述出来,提供了一种更好地组织、管理、理解和使用知识的能力,并在搜索推荐、智能问答、大数据分析与决策等领域获得了成功应用。人工智能

不一样领域的知识图谱有不一样的知识表示范围和问题解决目标,例如:医疗图谱主要描述疾病、症状、药物、诊断相关知识,可用于辅助问诊、辅助诊断、治疗方案推荐等场景;商品知识图谱主要描述商品属性、特征、关联关系等,可用于导购、客服、营销等场景。url

那么,除了这些具体的领域事实知识和领域应用以外,还有哪些通用知识是模型欠缺的,能帮助模型像人同样理解语言?spa

实际上,人对事实知识的记忆能力是远逊于模型的(模型能够轻易记住上亿的精准事实知识,而人作不到),但人的语言理解能力却远远超过任何模型。每一个人的知识背景都不尽相同,但不一样年龄、不一样国家、不一样专业的人,互相之间能够交流。一本架空小说,描述的事实和咱们生活的真实世界彻底不一样,但读者却能够无障碍地理解。.net

咱们天然会认为,必定存在一个通用且相对稳定的知识体系,可以让不一样的人互相交流,可以让人读懂从未见过的文章,可以让一我的给另外一我的讲解清楚新出现的名词。可是,这样的通用知识体系是什么样的?如何表征和构建?如何应用到NLP模型和任务中?遗憾的是,在人工智能领域,虽然从几十年前已开始研究这些问题,但目前仍无共识性的答案,依然是你们共同努力探索的方向。

百度发布“解语”开源工具集,就是尝试从中文词汇理解和句子理解的角度,对这些问题进行初步探索:构建一个通用且相对稳定的中文词汇知识体系,将文本与词汇知识体系相关联,让模型对中文句子的理解能力更接近于人。

解语:关联中文文本与词汇知识

为了可以区分通用知识和领域知识,咱们选择这样的切入点:当一我的看到一个句子,若是事先不知道句子涉及的事实知识,怎么理解这个句子?

显然,人对句子的理解至少包括如下三层:

  1. 理解句子里都有哪些词;
  2. 理解这些词大概的意义,即使有不认识的词,也能大概猜出这个词指的是一我的、一件事、仍是一种疾病;
  3. 理解这些词之间的关系,并与脑海里已有的知识关联。

基于这样的考虑,咱们构建了“解语”,主要包括两部分:

  • 百科知识树(TermTree):是一个描述全部中文词汇(包括概念、实体/专名、领域术语、语法词等,统一称之为Term)的树状知识库。
  • 中文词类知识标注工具(WordTag):是首个可以覆盖全部中文词汇的词类知识标注工具,结合百科知识树可实现定制化词类序列标注。

解语主页:
https://www.paddlepaddle.org.cn/textToKnowledge

百科知识树(TermTree)

百科知识树由两部分构成:

  • TermType词类体系:覆盖全部中文词汇词类的树状知识体系,是对中文词聚集合的一种全划分层次表示;
  • Term关系和属性值:描述具体Term之间关系和Term属性值网状图谱,用于整合各应用知识图谱;

图片.jpg

本次开源的百科知识树V1.0试用版中,包含了简化版的TermType体系,以及约100万数量的term集合。

下载连接:

https://kg-concept.bj.bcebos.com/TermTree/TermTree.V1.0.tar.gz

与其余常见应用知识图谱不一样,百科知识树的核心是概念词,而非专名实体词。由于在中文文本中,概念词的含义是相对稳定的,而专名实体词随应用变化(例如,不一样电商有不一样的商品实体集,不一样的小说站有不一样的小说实体集),所以,百科知识树经过 “提供经常使用概念集 + 可插拔的应用实体集/应用知识图谱” 来达到支持不一样的应用适配。

百科知识树的主要特色:

1.采用树状结构(Tree),而不是网状结构(Net/Graph)

  • 树结构是对知识空间的全划分,网状结构是对相关关系的描述和提炼。树结构可以更加方便作到对词类体系的全面描述,也能够方便地与网状结构结合使用;
  • 树结构适合概念层次的泛化推理,网状结构适合相关性的泛化推理。树结构的知识对统计相关知识有很好的互补做用,在应用中可以更好地弥补统计模型的不足。

2.覆盖全部中文词汇词类,通过大规模产业应用实践

  • 百科知识树的词类体系是在大规模产业应用实践(如百科文本解析挖掘、query理解)中打磨出来的中文词类体系,在理论上可能不是一个完备体系,但很适合通用领域中文解析挖掘任务。

中文词类知识标注工具(WordTag)

WordTag是首个可以覆盖全部中文词汇的词类知识标注工具,旨在为中文文本解析提供全面、丰富的知识标注结果,能够应用于模板(挖掘模板、解析模板)生成与匹配、知识挖掘(新词发现、关系挖掘)等天然语言处理任务中,提高文本解析与挖掘精度;也能够做为中文文本特征生成器,为各种机器学习模型提供文本特征。

使用WordTag工具能够方便为中文句子标注上词类序列知识。以下图所示,在PaddleNLP工具包中只须要三句代码,就能够获得给定中文句子的词类序列标注结果:
图片.jpg

Wordtag与中文分词、词性标注、命名实体识别等工具的区别以下图所示:

图片.jpg

因为中文是孤立语,没有词的形态变化,句法结构弱,主要依赖“词+词序”表达语义。经过WordTag词类知识标注产出完整的Term边界以及上位词类序列,可以为文本提供更加丰富的词汇知识特征,比通常分词粒度稳定,比词性特征区分度高,比命名实体识别覆盖面广,不管是直接用于挖掘,仍是做为知识特征加入到DNN模型中,都是更全面的知识补充。

WordTag的理想目标是在词类序列标注这一维度上逼近人对句子的理解能力,也就是说,当句子中出现未知词汇时,可以经过句子中其余的词及词类知识划分它的边界并分辨出它大几率是什么词类。当前WordTag的效果距离这个目标还有至关大的距离,但经过不断基于百科知识树扩充和优化训练样本,WordTag会持续优化,逐步逼近这个目标。

不一样场景下的文本解析可能有各自的特殊需求,结合百科知识树,WordTag可实现定制化词类序列标注。

解语的应用场景示例

应用场景1:分词、命名实体识别、专名挖掘

有别于其余的分词工具,WordTag的切分目标是尽量将Term的完整边界切分出来,使之更加适用于下游的挖掘任务,在实际应用中,也能够结合其余基础粒度的中文分词结果共同使用。

同时,WordTag的标注词类覆盖了中文全部词汇,其结果能够直接做为命名实体识别的候选结果使用,也能够结合百科知识树进行更细粒度的词类筛选,或直接用于专名挖掘。

例如上文的例子:

WordTag结果:李伟\人物类实体 拿出\场景事件 具备\确定词 科学性\信息资料 、\w 可操做性\信息资料 的\助词 《\w 陕西省高校管理体制改革实施方案\做品类实体 》\w

可直接做为分词结果,也可经过做品类实体标签、人物类实体标签获得实体候选,还能够结合百科知识树进行其余词类的挖掘和过滤。

应用场景2:文本挖掘模板/解析模板生成与匹配

在知识挖掘、query解析、语义一致性断定等应用中,文本挖掘/解析模板是最经常使用的规则模型。WordTag包含了覆盖中文全部词汇的词类标注体系,在生成模板以及模板匹配上有着自然的优点。用户能够根据WordTag标注的样本词类序列,自动生成或配置更加丰富、精准的挖掘/解析模板,而后对目标文本使用WordTag标注,便可利用模板进行匹配,从而大大下降人工配置模板的代价,显著提高生产效率。

例如,输入文本“美人鱼是周星驰执导的电影”,可将抽取出的词类直接构形成为挖掘匹配模板:

[做品类实体][确定词|是][人物类实体][场景事件|执导][做品类_概念|电影]

利用该模板以及结合百科知识树进行概念扩展,能够匹配出全部该句式的文本,例如:

《狂人日记》是鲁迅创做的第一个短篇白话日记体小说
《千王之王2000》是一部王晶于1999年执导的喜剧电影
《射雕英雄传》是金庸创做的长篇武侠小说

WordTag的标注结果中,区分了“人物类实体”和“人物类概念”,以及“做品类实体”和“做品类概念”,使得模板生成更为精准。同时,百科知识树中也区分了命名实体词(eb: entity base)与非实体词(cb: concept base),这样,能够利用百科知识树分别进行实体扩展(e.g., 周星驰->王晶)和概念扩展(e.g., 电影->小说),生成更加丰富多样的模板,支持更细化的应用场景。

此外,模板也可用于文本分类和文本挖掘的样本优化:使用WordTag产出样本模板,再利用百科知识树进行泛化约束,筛选出高置信度的样本,或者过滤不合格的样本。

应用场景3:词类知识加强的DNN模型

不少研究在尝试将知识引入模型,以得到更好的应用效果。例如,[2]提出在关系抽取模型中增长实体类型的信息,以达到更优的知识抽取效果。

开发者们能够利用WordTag生成词类特征,与知识加强的挖掘模型结合,应用于本身的中文挖掘任务;研究者们也能够利用WordTag与百科知识树提供的丰富的词类特征,探索更好的知识加强的中文挖掘模型。

除下游任务外,也能够将词类知识应用于预训练中,例如使用词类知识控制预训练语言模型的掩码过程,让预训练语言模型具有更强的通用知识。

总结与展望

让NLP模型对语言的理解能力逼近人类,是全部NLPer的努力目标。一方面,咱们但愿模型能自动学得语料中隐含的知识,另外一方面,咱们也但愿将人类积累的通用知识经过更高效的方式融入到模型中,弥补语料的分布缺陷。

“解语”是从中文词汇理解和句子理解的角度尝试构建词汇层次上的通用知识,并将其应用到中文文本知识标注中。目前的知识体系及标注效果还在持续优化中,这次做为开源数据和工具发布,也但愿能和你们共同探索通用知识的表征与应用方案,打造更具备知识理解能力的NLP模型。

相关文章
相关标签/搜索