百度大脑UNIT3.0详解之知识图谱与对话

时间 2019-11-07

标签百度大脑 unit3.0 unit 详解知识图谱对话繁體版

原文原文链接

现在,愈来愈多的企业想要在电商客服、法律顾问等领域作一套包含行业知识的智能对话系统,而行业或领域知识的积累、构建、抽取等工做对于企业来讲是个不小的难题,百度大脑UNIT3.0推出「个人知识」版块专门为开发者提供知识建设帮助。在行业智能化的实现进程中,经过知识图谱对数据进行提炼、萃取、关联、整合,造成行业知识或领域知识,让机器造成对于行业工做的认知能力,并把这些认知能力与技能理解模型进行整合,从而实现这个行业的知识型对话系统。html

【认知与对话智能】web

首先举个简单的例子,让你们直观感觉一下认知与对话智能:算法

小明:[演员]是作什么的? 数据库

小吴:是指专职演出,或在表演艺术中扮演某个角色的人物架构

小明:[周杰伦]是作什么的? 工具

小吴:歌手post

以上,直观展现了即便是句式一致的两句话,人类能区分出前者是“名词解释” 意图,后者是“询问工做” 意图。小吴能作到如此,是由于他积累了不少知识,而这些知识帮助他在平常交流中更好的理解、决策、答复。spa

对应的,人机对话流程中涉及的语言理解、对话决策、信息查询、语言组织等重要环节,都须要语言知识、世界知识以及必要的领域知识的指导。其中,知识图谱(Knowledge Graph,KG)是应用最为普遍的知识表示形式之一。知识图谱以图谱的形式描述真实世界的实体及其内在关系,用模式定义可能的类和实体关系,容许任意实体彼此潜在相互关联,并涵盖各类主题领域。3d

在UNIT平台中,知识图谱的具体应用可划分为三种模式:cdn

1) 第一种模式对应问答型对话系统,该类对话系统将知识图谱视为答案信息来源,经过对话理解将用户问题转化为对知识图谱的查询,直接获得用户问题的答案。

2) 第二种模式将知识图谱视为用于对话理解的知识源,借助知识图谱中元素的属性及关系,为用户话语和对话上下文的语义理解提供辅助。

3) 第三种模式对应主动对话场景,借助知识图谱中概念、属性和关系之间的关联,经过话题推荐等策略实现对话过程的主动引导。

【知识图谱技术解读】

UNIT-个人知识整体组成以下:

平台:UNIT为托管知识图谱提供了的整套平台化支持。

算法:提供了图谱生产和应用环节的一套丰富的高质量算法。

架构:包含图谱生产架构,图谱存储架构,图谱算法架构,图谱应用架构。

UNIT知识图谱的核心技术包括知识表示、知识抽取、知识消岐与融合、知识存储。

1. 知识表示:

知识表示要解决的核心问题是知识建模,也就是创建行业知识图谱的数据模式,以及对整个知识图谱的结构进行定义。可采用三种方式对行业知识体系进行定义:

1) 自顶向下,即彻底由专家在平台上进行专业化编辑生产。

2) 自底向上,基于行业现有的标准进行转换或者从现有的高质量行业数据源(如业务系统数据库表)中进行映射。

3) 通用引入,基于百度积累多年的KG Schema,由行业图谱生产者在平台fork引用,造成行业schema的基础骨架。

百度知识图谱数据描述规范使用W3C RDF协议定义做为基础协议,采用JSON-LD标准组织描述语言,包含以下要素:

1) Class类:实体的种类,定义一种类型的实体。

2) Property属性:表示不一样数据源中针对实体的描述,造成对实体的全方位描述。

3) Relation关系:利用关系来描述各种抽象建模成实体的数据之间的关联关系,从而支持关联分析。

4) Constraint约束:一个属性在特定类下面的约束,为属性增长多态和重载的特性。

5) Datatype数据类型:描述一个属性的数据类型。

6) Subclass概念上下位:描述Class的从属上下位概念关系。

KGSchema支持复合类型的属性值,用以加强三元组表示方式的语义表达能力,例如能够表达时序,空间等复杂知识。

2. 知识抽取:

百度知识图谱的知识抽取能力,从百度对万亿级的互联网资源图谱化而创建的抽取能力而来。能力栈上分为三个层次:结构化抽取,半结构化抽取,以及非结构化抽取。

1) 结构化数据指规范化良好的关系数据库,知识图谱已实现基于成熟D2R技术的可视化工具用于这类数据的转化。

2) 半结构化数据主要指表格、半结构的kv等有必定结构的数据,目前知识图谱已实现基于schema的表格(主要技术是根据schema自动识别表格结构)和半结构化文本自动抽取模块。该项技术已经在多个行业场景中实际落地。

3) 无结构化自由文本知识抽取,采用通用数据预训练+具体场景迁移的技术思路解决行业样本稀疏的问题。预训练阶段主要是基于百度在通用知识图谱构件上积累的大量标注样本,训练文本分类模型与序列标注模型,用于标注出如今文档段落中的SPO。

3. 实体消岐与融合:

行业数据每每存在多来源,多渠道的特型,不一样来源渠道对同一实体的表述每每不尽相同,因为不可能为每一个名称分配惟一的标识符,因此在许多状况下,若是人们使用名称来识别指定的命名实体,则可能会致使混淆,为了提高知识图谱的质量以及语义密度,提供了一套知识融合消歧算法以及配套的策略迭代方法,来解决行业数据的融合消歧问题。

融合与消歧涉及两种知识操做:

1) 关联,给定实体(集)、知识库KB,完成实体的辨识、创建与KB中实体的等价连接、及NIL判断。其中,“等价”是指两实体指代现实世界中同一事物或概念、“NIL”表示实体在KB中不存在。

2) 归一,给定实体集合,完成相同实体的分组聚合。其中,“相同”定义为待归一的实体指代了现实世界中同一事物或概念。

【如何在UNIT平台构建本身的知识图谱】

UNIT对话系统的核心能力包含语言理解、对话流程管理和知识建设。“个人知识-图谱/问答知识库”是知识建设能力的重要组成部分,为开发者提供了知识挖掘与管理工具。这些积累的知识可用于提升模型理解能力、完善对话管理能力、实现对话系统的知识建设闭环。

如今,只需3步就能在“个人知识——图谱知识库”定义和构建您的知识图谱:

第一步,在“知识定义”页面导入咱们为您准备好的类目文件模板:https://unitweb.cdn.bcebos.com/图谱知识库快速上手类目文件模板.zip

第二步,在“个人数据”页面上传咱们为您准备好的数据源文件:https://unitweb.cdn.bcebos.com/图谱知识库快速上手数据源文件.zip

第三步,在“图谱构建”页面点击“开始构建图谱”,等待构建完成。

接下来,您就能够预览查看相关数据,完成快速体验。

【整合技能与知识】

在UNIT中,知识与技能整合的方式以下:

1) 提炼萃取行业知识:定义本身的图谱知识结构,上传知识源文档,挖掘实体、属性、属性值;

2) 让技能更好地理解:导出图谱知识库里的各类属性值做为对话技能的词槽词典值;

3) 让技能更聪明地对话:在对话技能中使用Taskflow配置(云端对话流程管理模块,可实现复杂对话流程的管理 )查询实体、属性值,进行流程控制或做为答复内容。

后续UNIT平台会提供更多“技能+知识”的整合方案,也将帮助各位开发者持续探索并打造对话技术进入工业级落地的各项基础条件。