知识库是一个有向图,包含:
KG的基本概念
Node:
边:关系
(旺财, Is-A,狗)
(狗,Is-A,哺乳动物)
(旺财,朋友,小白)
(旺财,颜色,黄色)
关系
关系分为Taxonomic Relation 和 Non-taxonomic Relation。
高阶三元组
在构建和应用知识图谱的过程中有几个重要的环节,包括知识体系构建、知识获取、知识融合、知识存储、知识推理和知识应用等。
知识体系构建,也称为知识建模,其核心是构建一个本体对目标知识进行描述。
目前,知识图谱中的数据采用RDF数据模型进行描述。在知识图谱中,RDF中的“资源”称为实体或者实体的属性值,“谓词”称为关系或者属性,“陈述”指的是RDF三元组,一个三元组描述的是两个实体之间的关系或者一个实体的属性。
知识获取的目标是从海量的文本数据中通过知识抽取的方式获取知识。数据的主要来源有各种形式的结构化数据、半结构化数据和非结构化文本数据(纯文本)。学术界主要集中在非结构化文本中实体的识别和实体之间关系的抽取,涉及自然语言分析和处理技术,难度较大。
知识集成,也称为知识融合,是对不同来源、不同语言和不同结构的只是进行融合,从而对已有只是图谱进行补充、更新和去重。
知识图谱的存储方式主要由两种形式:RDF格式存储和图数据库。RDF格式存储就是以三元组的形式存储数据,如Google开放的Freebase知识图谱。这种存储方式使得三元组的搜索效率较低。图数据库的方法比RDF数据库更加通用,目前典型的开源数据库是Neo4j,这种图数据库的有点是具有完善的图查询语言,支持大多数的图挖掘算法,缺点是数据更新慢,大节点的处理开销大。
目前只是推理的研究主要集中在针对知识图谱中缺失关系的补足,即挖掘两个实体之间隐含的语义关系。主要采用以下两种方法:①基于传统逻辑规则的方法进行推理,其研究热点在于如何自动学习推理规则,以及如何解决推理过程中的规则冲突问题。②基于表示学习的推理,即采用学习的方式,将传统推理过程转化为基于分布式表示的语义向量相似度计算任务。
人工构建:
1. Cyc https://www.cyc.com/platform/researchcyc
2. WordNet https://wordnet.princeton.edu/
基于维基百科:
1.DBPedia:https://wiki.dbpedia.org/
2.YAGO:YAGO
3.Freebase:https://developers.google.com/freebase/
4.WikiTaxonomy:http://www.hits.org/english/research/nlp/download/wiki
5.BabelNet:https://babelnet.org/
开方知识抽取:
1.KnowltAll:https://openie.allenai.org/
2.NELL:http://rtw.ml.cmu.edu/rtw/
3.Probase:Probase
企业知识图谱: 1.百度知心,搜狗知立方 2.Google KG,MS sotori