CCKS 2019 | 百度 CTO 王海峰详解知识图谱与语义理解

本文转载自公众号:机器之心。; 网络


8 月 24 日至 27 日在杭州召开的 2019 年全国知识图谱与语义计算大会(CCKS 2019)上,百度 CTO 王海峰发表了题为《知识图谱与语义理解》的演讲。

CCKS 2019 由中国中文信息学会语言与知识计算专业委员会主办,浙江大学承办,以「知识智能」为主题,吸引了来自海内外的八百多名科研学者、工业界专家和知名企业表明参加。

对知识的研究贯穿于整我的工智能的发展史,知识图谱在人工智能技术领域的热度也逐年上升。 王海峰认为,知识图谱是让机器像人类同样理解客观世界的基石。 在演讲中,他用生动的实例展现了百度在知识图谱和语义理解领域的技术探索及应用,并探讨了其将来的发展方向。

如下是演讲实录:

很是高兴能有机会参加知识图谱和语义计算大会。

我如今在百度负责的技术涉及互联网、大数据、人工智能等方方面面,可是个人专业实际上是天然语言处理、知识图谱。 大概 26 年前,我在哈工大,在李生教授和赵铁军教授的指导下作机器翻译系统。 当时,主要是基于规则的系统,也要用到知识,那时的知识是把人类专家的知识编辑在规则里,实现语言的理解、生成,而后实现翻译。

过去 20 多年,这一领域从基础研究到应用,都已经发生了很是大的变化。 固然,20 多年相比于天然语言处理这个领域 70 多年的历史来讲,还很年轻。

天然语言处理这样一个有 70 多年历史的专业,如今仍然欣欣向荣,我想有两个方面的缘由: 一方面是由于有大量用户的真实需求,促使咱们更多地投入这方面探索应用; 另外一方面天然语言处理发展了 70 多年遇到的不少问题都尚未解决,须要咱们进一步深刻研究。

我首先从人工智能开始介绍。

你们都知道,人类历史发展到如今,已经经历了三次工业革命,每次工业革命都会带来翻天覆地的变化,生产力的进步带来了整个社会的变革,生活方式随之发生深入变化。 第一次工业革命令人类走向机械化时代,第二次是带来了电力,第三次是信息化革命。 咱们很幸运,今天处在第四次工业革命的开端,第四次工业革命的核心驱动力就是人工智能。 固然,人工智能是为了模拟人的能力,须要包括语音、视频、图像、AR/VR 等感知方面的技术,也须要知识图谱、语言理解等认知方面的技术。 固然,还有机器学习,以及最近这些年很重要的深度学习等等。

640?wx_fmt=png

感知能力不少生物都有,并且不少生物这方面的能力比人类强。 认知能力则是人类特有的,包括咱们的语言和知识。 咱们经过语言的交流、知识的呈现(知识呈现其实也是基于语言),把知识传承下来。 关于语言和知识,无论是对于人类仍是对于人工智能都是很是重要的。

知识图谱是让机器像人类同样理解客观世界的基石。

过去这些年,AI 技术经过深度学习取得了很是好的效果,尤为是在语音、视觉等感知技术上取得了很是大的突破,甚至在不少方面,深度学习达到的效果已经超过了人类。
深度学习也给天然语言处理以及知识相关的技术带来了很是大的帮助,可是咱们继续深刻研究、应用实践的时候会发现,咱们还须要更好地结合知识、推动知识图谱相关的工做,才能取得更好的效果。

基本的知识图谱,会涉及到实体的属性关系,每个实体可能有若干个属性,实体和实体之间有不少关系,每个关系基本上能够理解为是一个事实。 所以知识图谱就是对客观世界的描述。 百度 AI 多年技术积累和业务实践的集大成是百度大脑,百度大脑发展了近 10 年的时间,其中的知识图谱技术是从 2013 年开始作的。 一方面知识图谱的规模在快速增加,另外一方面,基于知识图谱来提供服务,天天知足用户各类需求的量级也在快速增长。 过去这些年,百度知识图谱的服务规模大概增加了 490 倍。

百度大脑技术能力的应用,一开始主要集中在搜索引擎上,以后开始突破互联网业务的范畴,面向各类企业级的用户,好比金融、客服、商业等,发展各类各样的应用,同时也进行 AI 技术开放,好比经过百度大脑的 AI 开放平台,让你们应用到咱们的 AI 技术。

下图所示是一个比较完整的百度语言和知识技术的布局 底层的基础就是知识图谱,经过知识挖掘、知识整合与补全、分布式图索引及存储计算等步骤,构建了包括实体、关注点、事件、行业知识、多媒体等等多元异构知识图谱。 天然语言处理相信你们都不陌生,一个相对完整的天然语言处理体系包括词法、句法、语义到篇章各个方面。 构建一个知识图谱的时候,这里面不少技术也会被综合使用。 百度语言与知识技术一方面全面支持百度本身的产品,好比搜索、问答、对话、机器翻译等等,一方面经过开放赋能不少企业级的应用。

640?wx_fmt=png

  广义来看,知识图谱也是语言科学的一部分,知识的获取和运用是理解语言不可或缺的; 反过来,为了更好地去构建、挖掘知识图谱,语言理解技术也是十分必要的,语言与知识技术是相辅相成的。

接下来,我会从这几个方面来介绍: 一方面是多元异构的知识图谱构建,这里面会涉及到图谱构建的一些应用,包括复杂知识等等; 另外一方面,涉及天然语言处理技术的一些探索。 固然,咱们的架构图远比我今天所讲的要完整。 在实际应用中,咱们还会经过百度的开源开放平台,进行数据和技术的开放。

首先说多元异构知识图谱的构建 说到知识图谱,首先就涉及到图谱的构建,涉及到在开放的、海量的数据里怎么样去挖掘数据、构建超大规模知识图谱。 咱们人类学习知识,是靠各类视觉、听觉等等去感知世界,不断地创建和完善知识体系。 机器如何学习? 或者说让一个机器的大脑怎么去学? 那就要靠数据, 好比互联网上海量的多形态数据,蕴含了不少行业应用的有价值信息。

640?wx_fmt=jpeg

首先,咱们从大量无标签非结构化数据中进行开放知识挖掘,一方面咱们基于多维数据分析和语言理解技术自动获取知识挖掘模板,并经过不断迭代获取新模板、挖掘新知识; 另外一方面咱们基于远程监督学习来自动构建训练语料。 为了去除自动构建训练语料中的噪声样例,咱们提出注意力正则化(Attention Regularization)技术基于实体上下文进行分析,经过模型输出指导标注语料的选择。 经过这样一套方法,咱们实如今千亿级文本中进行更精准地开放知识抽取。

640?wx_fmt=jpeg

基于开放知识挖掘抽取了大量的 SPO 三元组,须要对其进行概括整理,咱们提出了自底向上的开放本体构建,即从开放数据中挖掘实体和关系,从海量实体关系中自动学习实体类别关系、类别上下位关系,并逐层抽象造成本体结构,实现知识体系的自学习和构建。 利用这样一套技术之后,本体规模增加了 30 倍,同时事实覆盖也有一个稳定的增加。

另外一方面,在这样海量的数据里,有不少类似知识多是从不一样的数据、不一样的文章里面抽取到的,这些知识如何进行融合、去粗取精,让它更准确、有效? 这又涉及到多源数据知识的整合 咱们经过语义空间变换技术实现实体消歧、实体归一等等,解决知识表示形式多样,关联融合困难的问题。 基于前面提到的这些技术,咱们如今构建了一个很是庞大的知识图谱,里面含有 6 亿实体,事实的量或者说各类关系量已经达到了 3780 亿。 比咱们人类大脑里面储备的知识多得多。

基本的知识图谱构建了之后,真正要用于各类真实应用,又涉及到不少更复杂的知识。 因此咱们从简单实体拓展到复琐事件,能够描述事件的动态、时序、空间、条件、几率等等关系。

下面咱们说一下复杂知识

好比桃园三结义的照片,在没有任何知识的状况下只能识别出画面中有三我的,有酒,有树。 可是结合实体知识,咱们能够知道这三我的的身份和更多的信息,好比树是桃树。 进一步基于事件知识,咱们知道是东汉末年,刘备、关羽、张飞三人在桃园结义。 有了事件知识之后,还能够对动态变化的客观世界进行建模。

640?wx_fmt=jpeg

事件图谱以事件为基本单位,表达事件相关的元素以及事件间的关联关系,好比图中的内马尔转会,中间最左边是类似事件——姆巴佩转会, 中间则以时间为线,从皇马开价、被评为最佳球员、皇马和巴萨的争夺、到达成转会协议……造成了一个完整的事件演变脉络。 而参与事件的角色称为事件论元,如: 内马尔、姆巴佩、巴萨、皇马等等,与对应的实体图谱相关联。

640?wx_fmt=png

完整的事件图谱技术包括,底层的数据,事件图谱的构建(构建涉及到事件抽取、事件关系抽取、事件检测等技术),事件图谱的认知计算,例如事件连接、事件计算、事件推理,事件计算包括重要性计算、热度计算、质量计算、类似度计算; 事件推理包括事件关系推理、事件论元预测、事件演化预测等。 如今咱们基本上能够作到分钟级的热点事件收录,实现千万量级规模的事件库,有十几个领域、4300+事件的类型。 事件图谱应用,好比搜索热点「华为正式发布鸿蒙」能够呈现出完整的事件发展过程,帮助用户清楚地了解事件的前因后果; 又如三峡大瀑布景区停业紧急通知,涉及地图信息点的发现、更新。

640?wx_fmt=jpeg

说完了复杂知识,咱们再说行业知识。

行业数据量很是庞大,可是真正应用在一个行业里的时候,都须要转化为行业相关的专业性知识。 行业知识,需求到底大到什么程度,举一些例子: 研究报告认为,到 2020 年,行业数据的体量会是很是巨大的,好比说法律专业每一年产出 4 亿卷宗,医疗方面的数据会提高 48% 以上。 还有一些行业是知识密集型的,而运营商会用到不少的人工客服,中国有全职客服 500 万人,人力成本巨大。 另外一方面,传统行业对于大数据的应用比例仍是很低的,好比金融行业非结构化数据占 80% 左右,有效利用率只有 0.4%,而人工构建知识图谱,以 freebase 为例,每条人工成本大约为 2.25 美圆,也都不便宜。

与通用知识图谱相比,行业知识图谱有共性也有所区别。 好比说,通用图谱相对浅层,但覆盖很是广。 由于通用知识图谱主要是以互联网、大数据为基础的。 你们知道,互联网通过 20 多年的发展,已经和人类平常生活的方方面面都密不可分了,某种程度上,互联网能够被理解为客观世界的一个映射。 这个庞大的网络可以构建不少种图谱,可是真正涉及到某个行业的很是细致、深刻的知识图谱,互联网不能都覆盖到。 因此,不少行业的知识图谱是相对封闭的,通常是由一些专家去构建、去标注。 从图谱服务的角度,通用图谱可让你们都去应用,可是行业图谱是针对特定行业的需求,定制化程度比较高,也有不一样的应用方向。 因此,以通用图谱为基础,面向行业的开发者,在图谱开发的时候,会涉及到一系列特有问题。

基于这样的背景,咱们构建了一体化的行业知识图谱平台,将多年积累的通用图谱构建能力迁移至行业,建设了行业图谱的基础架构和构建平台,以及智能问答、语义检索、推理计算、智能推荐、内容生成等基础能力组件,支撑行业应用,而且针对行业特色实现一些优化,服务于不一样领域的用户。

这里简单介绍一下医疗的知识图谱。 为了构建一个医疗场景的知识图谱,咱们跟不少合做伙伴合做构建了这样一个框架,包括结构化的解析、实体连接、人机结合、因果关系学习、诊断路径挖掘等等。 咱们能够看到,专业医疗图谱涉及到医院、医师、疾病等等各个方面,经过医疗的认知计算,提供各类医疗临床辅助决策服务。

640?wx_fmt=jpeg

多媒体知识图谱。 今天我讲的题目,是知识图谱和天然语言处理,但实际上,人类几千年传承靠知识来作载体,还包括了语音、视觉,以及各类各样的形式。 如今视觉类的产品,坦率来讲都不智能。 好比,计算机视觉技术能够识别,但识别出来以前,如何将这些孤立的数据联系起来? 仍是跟图谱相关。 咱们能够基于图谱把知识关联起来,进行它们之间的关联与计算,进而可以作结构化的语义理解。

你们看到,这是《大河唱》的一些片断。 这些片断里面,咱们经过综合应用计算机视觉技术、语音识别技术、天然语言理解技术,把其中的语音、视觉、文本融合起来,并经过与背景知识的关联,造成对视频的深刻理解。

640?wx_fmt=jpeg

接下来介绍知识加强的语言处理技术。

如前面所说,一方面语言理解是咱们发现知识很重要的基础,另外一方面,有了这些知识,能够更好地帮助咱们作人工智能。

在语言方面,首先介绍语义表示。 咱们知道,天然语言存在不少歧义,同时一个意思也能够用不一样的词来表述,句子表达的形式很是多。 于是好的形式化语义表示是计算机处理语言的基础,语义表示能够分为形式化符号表示和统计分布式表示。

随着深度学习的兴起,统计分布式语义表示这几年很受欢迎。 简单回顾一下历史,相信你们都很清楚,2003 年,图灵奖得到者 Bengio,最先提出了前馈神经网络语言模型,这些年获得了很大的发展,这两年出现了不少基于分布式表示的预训练语言模型。 今年百度前后发布了两版语义理解框架 ERNIE。

ERNIE1.0 是基于知识加强的语义表示模型。 咱们为了训练这些模型,使用了包括百度百科、新闻、对话等等海量的多样化语料,同时强化了中文的词、实体等先验语义知识,从而获得更好的语义表示模型。

640?wx_fmt=png


在 1.0 知识加强的基础上,咱们但愿不断更新这个系统,ERNIE2.0 在知识加强的同时,又增长了持续学习的能力,经过基于多任务学习的预训练任务迭代,不断提高模型性能。 经过对百科、对话,篇章结构、网页搜索、语义关系等超过 13 亿知识不断地学习,不断地积累,ERNIE 在多项中英文天然语言处理任务上取得了业界最好效果。
 

640?wx_fmt=png

基于语义表示,咱们能够作更复杂的语言理解任务, 例如机器阅读理解。

机器阅读理解 就是让机器来阅读文本,而且回答相关的问题。 知识对于机器阅读理解会起到什么做用呢? 好比这个例子,问的是《人在囧途》是谁的表明做,仅靠文本自身的内容是不够的,须要基于一些外部知识来获得想要的答案。 为此咱们提出文本表示和知识表示融合的阅读理解模型 KT-NET,经过融合前面讲的知识图谱加强文本阅读能力。 这个技术在实体对话等不少领域已经获得了很是好的应用效果。

640?wx_fmt=jpeg

阅读理解能力也普遍应用于搜索产品。 如今咱们的移动设备愈来愈小,而你们的工做生活节奏愈来愈快,但愿搜索再也不像之前是一条条的 URL、摘要,更直观、准确的结果是你们更但愿看到的。 这里面就涉及到智能问答的技术,好比「香格里拉酒店的老板是谁」,这个问题,你们就须要很直观的回答。 有时智能问答不只仅是直接给出一个答案就能够,更多的应该是一段话来进行高度相关的解释。 好比面对「煎鱼怎么不粘锅」这个问题,咱们会给出方法1、方法二两个回答。

640?wx_fmt=jpeg

对于聊天,咱们提出基于知识的主动聊天技术。 目前相对广泛的技术是用户问一句,而后机器进行回答,用户主动地问,机器被动应对。 而真实场景的聊天,用户是但愿机器能够主动地发起对话的。 因而咱们设计了基于知识驱动的自主对话任务,让机器根据给定的知识图谱信息,主动来引领对话进程,达到信息充分交互。

640?wx_fmt=png


基于百度飞桨(PaddlePaddle),咱们开源了检索模型、生成模型两个主动对话的基线模型。 同时咱们举办了一个知识驱动的对话竞赛,这个竞赛影响很普遍,参与度很高,队伍报名数 1536 支,提交结果数 1688 次。

640?wx_fmt=png


最后介绍一下语言生成,包括机器辅助写做和智能自动创做

如今内容创做过程当中面临一些痛点,包括捕捉不到热点信息,实时报道速度不够快,也包括人工审核成本高、搜集素材费时费力、创做用词缺少灵感、多模态内容需求等等。 这些问题借助咱们的技术,均可以缓解。 创做前能够辅助选题、激发灵感,包括热点发现、热词分析、事件检索、观点分析等等。 创做中可能须要更多辅助的素材,把不少相关的内容呈现出来,这个时候须要作信息的推荐,加入一些领域知识库,一些历史相关的事件脉络,帮助写做。 固然还有标题的生成,这个也是颇有技术含量的。 创做后保证质量、提高分发。 保证质量包括文本纠错、低质检测、词语润色; 提高分发,包括添加文章标签、自动摘要、文本分类。

这是一个辅助写做系统完整的架构图。
 

640?wx_fmt=png

这是一些辅助写做示例。 第一个热词分析是以「中美贸易战」为例,第二个就是事件脉络,第三个是标题生成,最右边是文本纠错、词语润色、文本标签。
 

640?wx_fmt=png

以上主要是经过辅助写做提高效率,让做者从重复工做中解放出来。 另一方面,机器也能够自动创做,可以实时的追踪事件的波动,自动把相关的信息汇聚,生成文章,覆盖重要信息。 相比人工写做,既省时省力,还能够提高稿件质量,应用程度很是高,也很是广。 这是基于结构化数据自动生成新闻的基本过程,包括宏观规划、微观规划、表层实现。

640?wx_fmt=png

为了实现智能创做,百度打造了智能创做可视化平台。

640?wx_fmt=png

上述语言和知识技术,都是基于百度飞桨深度学习平台实现的,飞桨是国内惟一功能完整、开源开放的深度学习平台 其中 PaddleNLP 是中文语言与知识模型及数据集,开放了大规模的数据集,包括阅读理解、对话、语音翻译、信息抽取、实体链指数据集等等。 提供基础网络,支持序列标注、文本分类、语义匹配、语言生成等等各类类型任务,还包括百度最新的前沿研究成果。

640?wx_fmt=png


这个是百度大脑语言与知识技术开放平台全景,不只包括知识表示、语义理解等基础技术,还包括应用平台。 好比翻译开放平台,你们能够直接调用翻译平台,进行翻译任务。 翻译方面,咱们提供多模翻译、领域翻译、通用翻译等多项领先技术。 此外还有 UNIT 平台,能够进行对话配置与训练,以及行业知识图谱平台、智能创做平台……此外,百度大脑还包括面向各类行业场景化的解决方案。

640?wx_fmt=png

最后,百度愿与学界、业界同仁,一块儿打造合做双赢的 AI 开放生态。

个人报告就到这里,谢谢你们!

OpenKG架构

开放知识图谱(简称 OpenKG)旨在促进中文知识图谱数据的开放与互联,促进知识图谱和语义技术的普及和普遍应用。框架

点击阅读原文,进入 OpenKG 博客。机器学习