目前以理解人类语言为入口的认知智能成为了人工智能发展的突破点,而知识图谱则是迈向认知智能的关键要素。达观数据在2018AIIA人工智能开发者大会承办的语言认知智能与知识图谱公开课上,三位来自企业和学术领域的专家分别从不一样角度讲述的知识图谱的应用和发展。文本根据达观数据副总裁王文广演讲内容《知识图谱与文本智能处理》整理所得,内容略有删减。算法
人们一些模糊词义的表达,好比:之前没有钱买华为,如今没有钱买华为。”这两句“没有钱”的意思很不同,咱们人理解这样的句子很容易,但对于计算机来讲理解便很困难。数据库
同一句话在不一样场景下含义也很不同,好比说从青岛开高速出来在车上谈“G20”是指高速有没有堵车,若是是北京或者是杭州谈G20有多是高铁的票,在一些环境下G20也多是20国集团峰会,这些表达的意思很是须要语境和背景知识的理解。计算机作文字阅读理解面临的挑战主要包括三个方面:网络
(1)缺少常识体系数据结构
由于没有丰富的知识体系难以对文字背后的含义进行深刻理解和推导架构
(2)缺少领域的专家经验学习
人类的业务、法务、财务专家由于有行业知识,因此阅读文字后与知识对比后能够造成专业的看法优化
(3)模糊、歧义、抽象会增长困难搜索引擎
语言中模糊不清的现象比比皆是,需结合语境去理解人工智能
知识图谱是其中一个为解决问题提出来的方法——咱们能够把人类的各类知识以知识图谱的形式沉淀下来,让计算机利用这个知识图谱理解更加复杂的含义。spa
知识图谱自己是从语义网发展出来的,也是谷歌提出来的概念,知识图谱的构建也是如今AI领域里面的很是大的难点,这是由于不只涉及到AI领域各方面的技术,还包括人类各类领域的知识所造成的专家系统。
构建高质量的不断演化知识图谱也是AI领域的难点之一,由于知识图谱自己研究的意义就是能够为语言提供更多的背景知识,让计算机更好的读写文字。基本现状像谷歌、百度、搜狗都有大量的通用知识图谱,还有垂直领域的医疗或者是金融领域的知识图谱的普遍应用也不少,如何结合业务场景使用好知识图谱是落地的根本要素。
知识图谱本质上是一种语义网络,将客观的经验沉淀在巨大的网络中,结点表明实体(entity)或者概念(concept),边(edge)表明实体/概念之间的语义关系,成熟的图数据库如neo4j,Dgraph,JanusGraph等能够用来存储知识图谱。
知识图谱更加普遍的被认知的是一个三元组的表示形式。就是有三个值,第一个表示第一个实体,第二个值表示第二个实体,中间值是二者之间的关系。三元组自己基于三元组的语义网发展起来,有RDF的检索语言,还有基于RDF的存储的开源的方式,都是很方便使用方式。
深度学习的发展促使知识的表示从三元组迈向稠密向量表示,从Word2Vec到对三元组的表示学习,稠密向量,实体等自己能够用Word2Vec等进行表示学习,例如 Vector(山东省) - Vector(威海市) = Vector(广东省) - Vector(佛山市) ,对于三元组的表示学习,有各种深度学习算法,如TransE、TransH、TransR、TransG、KBGAN、等。
知识图谱上的应用很是多,好比推荐系统能够用上知识图谱来实现更加智能的推荐,除此以外,知识问答、文档审核等也是知识图谱常见的应用场景。
通常来说会把知识图谱分红通用和行业的知识图谱,通用型的就是刚刚提过像谷歌,构建知识图谱就是一个面向全领域,没有一些特别的偏好,国内有百度或者是搜狗的知识图谱,还有一些是开放式的像wikidata 以及中文openKG等。
行业垂直型知识图谱是面向某一特定领域,如金融、法律、财会、教育等,以专家知识为主,经过结合业务场景,基于行业数据构建,打造“语义层面的行业知识库”,一般也更加专业。
好比向百度或者是搜狗搜一些人名地名会以卡片的形式展示出来,这个是知识图谱的现实的应用。金融领域会用知识图谱分析借贷关系或者是企业的信贷情况等,这是很是强的应用场景。
目前达观达观构建一些企业信息法律类的知识图谱用来帮助咱们的文档智能审阅系统更好的审核合同或者是专业文本,像财报或者是上交所的公告等。
知识图谱有这么多好处,咱们怎么去构建一个知识图谱?简单来讲,构建知识图谱实际上是一个系统性的工程,不是单一的算法可以完成。
若是要构造一个完整的知识图谱则是很是复杂的系统工程,会涉及到schema(本体)的构造,而后会有一些知识抽取或者是关系抽取的概念语言。其次,须要对知识推理(关系推理)的结果进行质量评估。此外,须要对知识抽取的监督算法进行样本标注,或者对自动标注的样本进行效果确认。
另外对于知识图谱来讲很是重要的一点是反馈机制,咱们怎么样利用反馈系统不断地让知识图谱进行进化?这个在构建知识图谱的过程中很是须要考虑的问题。此外,工程上详细的logging和报表系统以在须要的时候进行分析和纠正。
schema的构造是层级的方式,专业领域是先按照专家经验构造出一个知识图谱的schema,而后在实践过程中不断完善,像通用的谷歌或者是百度他们自上而下利用类算法抽取知识图谱,而后归类到已经有的schema,若是归类不到就千方百计生成新的schema的模式匹配它。
在这里面知识图谱构建过程中,除了schema以外就是往图谱里填内容,这个过程就是知识抽取,自己是包括了实体抽取和关系抽取,还有属性抽取这几个概念,在实践过程中,其实不彻底是像在论文里面看到的各类抽取,有多是从结构化数据库里面按照某一种专业的规则直接转化,由于不少的知识其实已经存储在各个企业里面关系数据库里面。这种状况下多是用了简单的规则就转化成知识图谱的一部分的内容。
另一部分是半结构数据,维基百科不少的标签是已经存在在里面的,还有国家企业信息公示网的各类实体公司名或者是企业法人都是以半结构化存在,这个用模板匹配就能够完成了。
这里面简单的就总结了刚刚提到的点,在不一样的背景下可能选择不一样的知识抽取的算法能够更好的去帮助咱们构建一个完整的知识图谱。
这是一个像BiLSTM-CRF用于命名实体识别经常使用的办法,帮助咱们识别非结构化文本,好比说书籍或者是合同或者是新闻里面的实体。
Bi-LSTM双向网络分别从前日后和从后往前进行序列信号的记忆和传递是常见作法,CRF等经典方法结果可控性好,在序列标注时,在顶层用CRF对Bi-LSTM的结果进行二次操做可获得更好的结果。
除了刚刚提到的知识抽取以外,其实抽取完以后在不一样的地方表现方法和表达方式不同,在不一样来源的知识里面如何融合成一个相同的?这个是咱们须要考虑的点,这里有几个例子:好比说苏东坡在不一样的地方会被提到,并且有不一样的名字,多是历书里面有东坡学士这样的说法,还有苏轼的叫法。
另外这些不只仅存在中国,由于多元跨国之间的交流也致使很大的问题,好比说后面的例子是美国总统特朗普,中文的官方名称是特朗普,你们还有称他为川普,还有其余的语言西班牙或者是土耳其语。在多元的环境下如何进行知识图谱?其实对知识图谱构建是很是大的挑战。
这是一个网络上的例子,来自于几个不一样的影视剧或者是小说,里面的部分人是同一我的,可是不一样的小说可能有不一样的名字或是不一样影视剧里面的主角,这样若是作成一个知识图谱如何归结好?利用各类影视剧小说里面的内容进行推理,实际上是多元知识融合里面很是通俗易懂的例子。这个是人工整理,人有专业的知识很是好作,可是耗费了大量的人力,不能把各类知识都作很好的融合,因此咱们须要发掘更多算法去实现这个目标。
除了刚刚提到的抽取和融合以外,对于知识图谱的存储其实也是很是大的挑战。大一点的通用的知识图谱都是几十亿甚至上百亿的节点,可能百亿千亿级别的关系,如何作好存储系统是极其须要考虑的点,下图总结目前常见的几种存储类型,像RDF和ApacheJena以三元组的形式表现的,NoSQL也能够存储,可是若是量大会很吃力,开源的Neo4j是单机的,DGraph正在发展,按照官方的说法支持千亿级别的,可是如今尚未达到,但亿级别是彻底没有问题的。
下图一个JanusGraph,有以下几个特色:
十亿以上的节点和边C* 或 Hbase等
与Spark无缝集成
支持使用ElasticSearch进行高效检索
最终一致性
支持Gremlin语言进行在线分析
开源
除了以上这些点,若是构建好了知识图谱,要对知识进行推理和评估,知识推理自己能够补充知识图谱的内容,或者是进行完善或者是较验。对于知识图谱大部分仍是须要人工的参与。
Path Ranking Algorithm(PRA)算法和DeepPath: A Reinforcement Learning Method for Knowledge Graph Reasoning,这两个是知识推理的前沿进展,有兴趣能够去看一下。
总之,从合适的业务场景出发是成功构建和使用行业知识图谱的关键。
知识图谱的做用是衔接企业的数据和业务需求。
对于企业来讲,是把原有的分散的数据变成集中化的管理。多是遇到比较大的集团企业他的传统的数据是分散的,不一样的部门和公司之间,这部分的知识是没有被更好的利用起来。如何利用好这些数据?更好的支持业务,让整个业务更高效的运行?实际上是整个企业在作知识图谱须要考虑的一个点。
对于咱们来讲他的难点就是在于由于自己的数据很是的分散,不一样的数据结构表示不同,存在不一样的地方有不一样的表达方式,如何作好这部分融合的工做实际上是很大的难点。
知识图谱的应用场景能够是简单的利用,即直接用知识图谱的分析,下图比是早的阿里巴巴的分析图,当时发生了一个事件马云把支付宝私有化,当时他们画了一个阿里巴巴的股权结构图,像这种股权分析在金融领域里面是很是直接的知识图谱的应用。
除此以外,信贷分析也是经典的应用场景,直接用知识图谱或者是知识推理进行分析,生成相应的报告或者得出一些结论,这个是最直接的应用场景。
第二是利用知识图谱作一些舆情分析热点分析,把知识图谱和其余的结合起来使用。
达观擅长的VOC用户评论分析,会涉及到用户评论归类到哪个实体里面,好比说一个企业会抓他的全部的评论和微博数据,会概括到具体的品牌和产品上,甚至是归到产品的某些类别中。好比说手机,有不一样的品牌,每一个品牌下面有不一样的型号,每一个型号下有不一样的版本,手机自己有不一样的零件——屏幕或者是相机之类。每一个评论过来以后其实针对的是某一个具体手机的型号,在这个型号里面有多是针对整机进行评价,有多是针对整机里面的部件。那么咱们须要作的更好的分析就是能够利用像手机这种相似的知识图谱对它进行更深刻的分析。
招聘也是达观目前在作的,有企业在用,能够对候选人和职位构建出图谱进行分析,更好的理解这个职位须要招什么人?也能够更好的了解候选人适合哪个职位。
此外,基于知识图谱实现更加智能的搜索。基于知识图谱的检索最先用在搜索引擎上面,搜索利用这些以后能够更好的理解用户的意图,达到更好的效果。
推荐系统也能够用知识图谱,这个是达观在作的,达观的推荐系统在业界比较领先,知识图谱能够针对不一样的场景或者是不一样的类型还有不一样的领域推荐。推荐中最重要的一点是冷启动问题,若是彻底没有数据的系统或者是刚构建的系统,想达到好的推荐效果比较难,利用知识图谱里面的内容能更好的在冷启动的环境下达到更好的效果。如何利用深度学习把知识图谱用在推荐系统上,也是达观数据在研究的内容。
构建知识图谱之上的问答系统是最直接的,知识问答是你须要了解用户问的问题是什么意思?而后给他一个最直接的答案。知识问答除了像各类搜索引擎,这个里面的例子有几个,一个是问范冰冰的男朋友是谁,百度就直接给出一个卡片。
前面就是一些通用场景下的应用场景,下面讲讲达观数据对知识图谱的的一些应用。
这个场景是合同审阅,自动化的帮企业审阅各类合同文本和公告,合同须要符合合同法规定的,以及企业内部的法务部门对合同有一些要求,以及自己合同是一个很是规范的文本,不容许有错别字等。
达观文档智能审阅系统能利用知识图谱里面包括对法律文本的语义化的图谱应用,自动完成审阅。以及对企业信息能够从工商信息网的信息里面能够作一些较验。
推荐系统刚刚提到过,推荐系统里面应用到知识图谱,这个是简单的例子,好比说达观数据和人工智能公司,是属于人工智能的一个领域,若是一个用户对人工智能感兴趣,对达观相关的信息就感兴趣,好比说达观的融资信息,这个对人工智能来讲是一个比较有用的新闻,能够判断这个领域是否是繁荣?估值是否是上涨了仍是降低了?
上图是达观用深度学习的方式把知识图谱的三元组表示应用到协同过滤和推荐相关的领域。
总结
前面简单的介绍了整个知识图谱的相关的内容,最后作一些总结。
1.构建知识图谱自己是很是系统性的工程,包括计算机的方方面面还有实践过程,以及企业真实应用场景中包括对企业的不断的沟通,不一样部门之间整合的过程2.整个知识图谱的构建没有"银弹",没有一个统一或者是完美的方法搞定一个事情,在作事情的过程中须要因时因地制宜的实现
3.知识图谱的构建能有效提高文本智能处理的效果
4.知识图谱多是走向认知智能的关键要素
5.知识图谱须要结合应用场景作分析落地,落地以后还要不断的优化总结来提高整个效果
关于嘉宾
王文广,达观数据副总裁,在人工智能领域和系统架构设计上有十余年工做经验,浙江大学计算机硕士。曾担任金融AI公司Kavout首席架构师,将人工智能(AI)和天然语言处理(NLP)技术应用于金融、证券、量化交易等领域,效果获得美国大型基金公司承认。
曾负责盛大创新院搜索、推荐、广告等多个项目的架构设计工做,所设计和开发的系统具有海量数据的快速处理和高度智能的挖掘能力,屡次得到嘉奖。早期在百度负责MP3搜索、语音识别与搜索和音频指纹等系统的核心研发。