知识图谱正在被大肆炒做,Gartner 的 2018 年新兴技术炒做周期中就包含了知识图谱。咱们甚至没必要等 Gartner 宣布 2018 年是“知识图谱年”,与活跃在这个领域的全部人同样,咱们都看到了机会,但也看到了威胁:伴随炒做而来的是混乱。算法
知识图谱是真实的,它们至少已经存在了 20 年。知识图谱的原始定义是关于知识表示和推理,如受控词汇表、分类法、模式和本体之类的东西,它们都是创建在标准和实践的语义 Web 基础之上。数据库
那么,有哪些东西发生了变化?为何 Airbnb、亚马逊、谷歌、LinkedIn、Uber 和 Zalando 等公司的核心业务都应用了知识图谱?为何亚马逊和微软加入了图数据库提供商的行列?你又能作些什么?并发
当知识图谱还没那么酷的时候app
知识图谱听起来彷佛很酷,但它们到底是什么?问这样的问题彷佛有点幼稚,但要构建知识图谱,首先要正确地定义它们。从分类法到本体论——本质上是不一样复杂性的模式和规则,而这些就是人们多年来一直在作的事情。机器学习
用于编码这些模式的 RDF 标准就具备图的结构。所以,将基于图结构编码的知识称为“知识图谱”是件很天然的事情,而相应的数据建模者就被称为知识工程师或本体论者。ide
知识图谱有不少应用——从编目项目到数据集成和 Web 发布,再到复杂的推理。这个领域的一些佼佼者包括 schema.org、Airbnb、亚马逊、Diffbot、谷歌、LinkedIn、Uber 和 Zalando。这就是为何经验丰富的知识图谱人士对炒做嗤之以鼻。工具
知识图谱如今已经出如今新兴技术的炒做周期中。对于拥有超过 20 年历史的技术来讲,还算不错。学习
与其余数据建模同样,这是一项艰难而复杂的任务。它必须考虑到不少利益相关者和世界观、管理起源和模式漂移等。加上混合推理和 Web 规模,事情很容易失控,这就是为何这种方法直到如今仍然没能成为最流行的方法。测试
另外一方面,无模式却一直很流行。无模式可让你快速入门,并且至少在某种程度上,它更简单、更灵活。但无模式可能带有欺骗性,由于不论是什么领域,都存在模式。读时模式(schema-on-read)?或许能够。那么彻底无模式呢?大数据
你可能不会事先对你的模式有充分的了解。它可能很复杂,并且会发生变化,但它必定存在。所以,忽略或淡化模式并不能解决任何问题,只会让事情变得更糟。问题将会潜伏起来,并花费你更多的时间和金钱,由于它们会给开发应用程序并得到对模糊数据洞察力的开发人员和分析人员带来阻力。
关键在于不是要抛弃模式,而是让它发挥做用,让它变得灵活和可互换。RDF 就很好,由于它也是数据交换标准化格式(如 JSON-LD)的基础。顺便说一下,RDF 还能够用于轻量级模式和无模式方法以及数据集成。
图谱的知识输入和输出
那么,这项 20 年的老技术为什么出如今炒做周期的新兴技术中?炒做是真实存在的,而出现炒做也不是没有缘由的。这与迅速崛起的人工智能炒做同样:并非由于方法自己发生了变化,更多的是由于数据和算力的发展让它能够大规模运做。
此外,AI 自己也起到必定做用。或者,更确切地说,是现在被炒得火热的自下而上、基于机器学习的 AI。知识图谱本质上也是另一种 AI,但不是那种被大肆宣传的 AI,而是那种象征性的、自上而下的、基于规则的、迄今为止仍然不是很流行的那种。
并非说这种方法就没有局限性。对复杂的领域知识进行编码,并进行大规模推理是很困难的事情。所以,机器学习就像无模式方法同样才会变得流行起来,而且有充分的理由。
知识图谱起初可能很难,但不要放弃。实践是走向完美的铺路石。
随着大数据的大肆发展和 NoSQL 的崛起,开始出现其余的一些东西。有关非 RDF 图谱的工具和数据库开始出如今市场上。这些标签属性类型( Labeled Property Kind,LPG)的图谱更简单和简洁。与 RDF 相比,它们缺乏模式或只提供了基本的模式功能。
它们一般在运营类应用、图算法或图分析方面表现得更好。最近,图也开始被应用于机器学习。这些都是很是有用的东西。
算法、分析和机器学习能够提供有关图的看法,一些常见的用例包括欺诈检测或推荐系统。所以,你能够说这些技术和应用程序从图谱中获取知识,是自下而上的。另外一方面,RDF 图谱将知识引入图谱,这是自上而下的。
那么,自下而上的图谱也是知识图谱吗?
知识工程师可能会说,这是一个语义问题。咱们很容易陷入知识图谱炒做中。但最终,可能会由于缺少清晰度而没法发挥太大做用。图算法、图分析和基于图的机器学习和看法,这些都很好,它们也不与“传统”的知识图谱相互排斥。
咱们以前提到的这个领域的佼佼者都使用了多种方法的组合。例如,使用机器学习来计算知识图谱有助于构建最大的知识图谱——至少在实例方面。这也是像 DeepMind 这样的 AI 先驱正在研究的东西。
有些旧东西,有些新东西,有些借来的东西
一般,使用何种图谱方法和工具取决于你的实际用例。对于图数据库来讲也是同样的,咱们一直在密切关注它的发展,一路看着新的提供商和功能的加入。
在不久前的 Strata 大会上,得到最具颠覆性创业奖的获奖者和亚军都是图数据库:TigerGraph 和 Memgraph。若是你想要这个领域快速进展的证据,那么这就是。顺便说一句,这两家创业公司都很年轻。
对于在 2017 年 9 月低调现身的 TigerGraph 来讲,这是很是活跃的一年。TigerGraph 刚刚宣布推出了新版本。它包含了一些旧东西,一些新东西,一些借来的东西。
自上而下仍是自下而上?
新东西不多。他们都在解决 TigerGraph 现有的痛点。TigerGraph 增长了与流行数据库和数据存储系统的集成,包括:RDBMS、Kafka、Amazon S三、HDFS 和 Spark(即将推出)。TigerGraph 表示,他们将会推出开源的数据库链接器,并托管在 GitHub 上。
固然,若是没有社区,Github 存储库也不会有太大做用。TigerGraph 正在努力,并发布了新的开发者门户和电子书。这个版本还带来了更多部署选项,添加了对微软 Azure 的支持。为了跟上容器化趋势,还增长了对 Docker 和 Kubernetes 的支持。
咱们以前提到了图算法,这多是这个版本最有趣的方面。TigerGraph 增长了对图算法的支持,例如 PageRank、Shortest Path、Connected Components 和 Community Detection。有趣的是,这些是经过 TigerJraph 本身的查询语言 GSQL 来提供支持的。
咱们已经提到了查询语言对图数据库的重要性。最近,领先的图数据库提供商 Neo4j 提出了为 LPG 图数据库建立标准查询语言的建议。与自带 SPARQL 的 RDF 不一样,这在 LPG 世界中尚不存在。
最开始,TigerGraph 回应了 Neo4j 的提议,但如今状况正在发生变化。TigerGraph 刚刚发布了一个 Neo4j Migration Toolkit,主要用于将 Cypher(Neo4j 的查询语言)翻译成 GSQL。
TigerGraph 这样作是有道理的,由于一直要迁移现有的 Cypher 查询体系将会成为他们发展的障碍。TigerGraph 的实现方式颇有趣,他们提供了一次性的批量翻译过程,而不是进行交互式的迁移。
这是一种战略选择。TigerGraph 但愿人们切换到 GSQL,而不是在 TigerGraph 之上使用 Cypher。通常来讲,开发人员一直不肯意学习新的查询语言。TigerGraph 能够尝试去说服他们,但能不能奏效彻底取决于每一个人。
旧东西是指 TigerGraph 发布公告包含的基准测试。这些基准测试其实是新的,但 TigerGraph 在刚推出时就已经提供了基准测试。对于一款声称比其余任何解决方案都要快的产品,这样作是无可厚非的。基准测试将 TigerGraph 与 Neo4j、亚马逊 Neptune、JanusGraph 和 ArangoDB 进行了对比,而且不出意料的是,它比其余产品都要快。
那么哪些东西是借来的?固然是知识图谱。TigerGraph 的员工也证明了客户对此表现出极大的兴趣,例如知识图谱相关活动在中国吸引了 1000 多人参与。哪一个知识图谱?如今你应该知道了。