数据层主要是由一系列的事实组成,而知识将以事实为单位进行存储。若是用(实体1,关系,实体2)、(实体、属性,属性值)这样的三元组来表达事实,可选择图数据库做为存储介质,例如开源的Neo4j、Twitter的FlockDB、sones的GraphDB等。
模式层构建在数据层之上,主要是经过本体库来规范数据层的一系列事实表达。本体是结构化知识库的概念模板,经过本体库而造成的知识库不只层次结构较强,而且冗余程度较小。数据库
自顶向下指的是先为知识图谱定义好本体与数据模式,再将实体加入到知识库。该构建方式须要利用一些现有的结构化知识库做为其基础知识库。
自底向上指的是从一些开放连接数据中提取出实体,选择其中置信度较高的加入到知识库,再构建顶层的本体模式。目前,大多数知识图谱都采用自底向上的方式进行构建。网络
知识抽取主要是面向开放的连接数据,经过自动化的技术抽取出可用的知识单元,知识单元主要包括实体(概念的外延)、关系以及属性3个知识要素。架构
虽然基于三元组的知识表示形式受到了普遍承认,可是其在计算效率、数据稀疏性等方面却面临着诸多问题。近年来,以深度学习为表明的表示学习技术取得了重要的进展,能够将实体的语义信息表示为稠密低维实值向量,进而在低维空间中高效计算实体、关系及其之间的复杂语义关联。框架
因为知识图谱中的知识来源普遍,存在知识质量参差不齐、来自不一样数据源的知识重复、知识间的关联不够明确等问题,因此必需要进行知识的融合。知识融合是高层次的知识组织,使来自不一样知识源的知识在同一框架规范下进行异构数据整合、消歧、加工、推理验证、更新等步骤,达到数据、信息、方法、经验以及人的思想的融合,造成高质量的知识库。分布式
知识推理则是在已有的知识库基础上进一步挖掘隐含的知识,从而丰富、扩展知识库。在推理的过程当中,每每须要关联规则的支持。因为实体、实体属性以及关系的多样性,人们很难穷举全部的推理规则,一些较为复杂的推理规则每每是手动总结的。对于推理规则的挖掘,主要仍是依赖于实体以及关系间的丰富同现状况。知识推理的对象能够是实体、实体的属性、实体间的关系、本体库中概念的层次结构等。学习