【天然语言处理】知识图谱简介

知识图谱的由来    

      计算机一直面临着这样的困境——没法获取网络文本的语义信息。为了让机器可以理解文本背后的含义,咱们须要对可描述的事物(实体)进行建模,填充它的属性,拓展它和其余事物的联系,即,构建机器的先验知识。Google为了提高搜索引擎返回的答案质量和用户查询的效率,于2012年5月16日发布了知识图谱(Knowledge Graph)。有知识图谱做为辅助,搜索引擎可以洞察用户查询背后的语义信息,返回更为精准、结构化的信息,更大可能地知足用户的查询需求。html

引用:https://zhuanlan.zhihu.com/p/31726910前端

知识图谱的结构体系
从图中咱们能够看出知识图谱的体系分红4个过程:数据采集、知识抽取、知识连接和融合、知识的应用。网络

引用:https://blog.csdn.net/zourzh123/article/details/81011008antd

    1.数据采集,构建知识图谱是以大量的数据为基础的,须要进行大规模的数据采集,采集的数据来源通常是:网络上的公开数据、学术领域的已整理的开放数据、商业领域的共享和合做数据,这些数据多是结构化的、半结构化的或者非结构化的,数据采集器要适应不一样类型的数据。框架

    2.知识抽取是对数据进行粗加工,将数据提取成实体-关系三元组,根据数据所在的问题领域,抽取方法分红开放支持抽取和专有领域知识抽取。学习

    3.知识连接和融合,因为表征知识的实体-关系三元组抽取自不一样来源的数据,可能不一样的实体能够进一步融合成新的实体,实如今抽象层面的融合;根据融合以后的新实体,三元组集合能够进一步学习和推理,将表达相同或类似含义的不一样关系合并成相同关系,检测相同实体对之间的关系冲突等。网站

    4.知识图谱构建完成以后,造成了一个无向图网络,能够运用一些图论方法进行网络关联分析,将其用于文档、检索以及智能决策等领域。例如,阿里的知识图谱以商品、标准产品、 标准品牌、 标准条码、标准分类为核心, 利用实体识别、实体链指和语义分析技术,整合关联了例如舆情、百科、国家行业标准等9大类一级本体,包含了百亿级别的三元组,造成了巨大的知识网,而后将商品知识图谱普遍地应用于搜索、前端导购、平台治理、智能问答、品牌商运营等核心、创新业务。搜索引擎

 

知识抽取三元组

每条知识标识为一个SPO三元组(Subject-Predicate-Object)spa

Subject : 主语
Predicate: 谓词
Object :宾语.net

引用:https://www.jianshu.com/p/14e690e89cc2

RDF(Resource Description Framework),资源描述框架,其本质是一个数据模型(Data Model)。它提供了一个统一的标准,用于描述实体/资源。RDF的做用就是描述上面提到的SPO三元组

 

知识图谱平台

知名的知识图谱平台PlantData

网址:https://www.plantdata.ai/home/index.html

目前中国的知识图谱从业者们创建了一个很是好的开放知识图谱共享网站:OpenKG.CN,

网址:http://www.openkg.cn/