阿里巴巴高级技术专家章剑锋：大数据发展的 8 个要点

时间 2019-11-15

原文原文链接

笔者从 2008 年开始工做到如今也有 11 个年头了，一路走来都在和数据打交道，作过大数据底层框架内核的开发（Hadoop，Pig，Tez，Spark，Livy），也作过上层大数据应用开发（写 MapReduce Job 作 ETL ，用 Hive 作 Ad hocquery，用 Tableau 作数据可视化，用 R 作数据分析）。今天我想借此机会和你们聊聊我所理解的大数据现状和将来。安全

首先让咱们来聊聊什么是大数据。大数据这个概念已经出来不少年了（超过10年），但一直没有一个准确的定义（也许也并不须要）。数据工程师（DataEngineer）对大数据的理解会更多从技术和系统的角度去理解，而数据分析人员（Data Analyst）对大数据理解会从产品的角度去理解，因此数据工程师（Data Engineer) 和数据分析人员（Data Analyst）所理解的大数据确定是有差别的。我所理解的大数据是这样的，大数据不是单一的一种技术或者产品，它是全部与数据相关的综合学科。看大数据我会从 2 个维度来看，一个是数据流的维度（下图的水平轴），另一个是技术栈的维度（下图的纵轴）。框架

其实我一直不太喜欢张口闭口讲“大数据”，我更喜欢说“数据”。由于大数据的本质在于“数据”，而不是“大”。因为媒体一直重点宣扬大数据的“大”，因此有时候咱们每每会突然大数据的本质在“数据”，而不是“大”，“大”只是你看到的表相，本质仍是数据自身。dom

在咱们讲清楚大数据的含义以后，咱们来聊聊大数据目前到底处在一个什么样的位置。从历史发展的角度来看，每一项新技术都会经历下面这样一个技术成熟度曲线。机器学习

当一项新技术刚出来的时候人们会很是乐观，经常觉得这项技术会给人类带来巨大的变革，对此持有太高的指望，因此这项技术一开始会以很是快的速度受到你们追捧，而后到达一个顶峰，以后人们开始认识到这项新技术并无当初预想的那么具备革命性，而后会过于悲观，以后就会经历泡沫阶段。等沉寂必定阶段以后，人们开始回归理性，正视这项技术的价值，而后开始正确的应用这项技术，今后这项技术开始走向稳步向前发展的道路。（题外话，笔者在看这幅图的时候也联想到了一个男人对婚姻见解的曲线图，你们本身脑补）。分布式

从大数据的历史来看，大数据已经经历了 2 个重要阶段

两个重要阶段是指太高指望的峰值和泡沫化的底谷期。如今正处于稳步向前发展的阶段。咱们能够从 googletrend 上 big data 的曲线就能印证。大数据大约从 2009 年开始走向人们的视野，在 2015 年左右走向了顶峰，而后慢慢走向降低通道（固然这张曲线并不会和上面这张技术成熟度曲线彻底拟合，好比技术曲线处在降低通道有可能会使讨论这项技术的搜索量增长）。工具

接下来我想讲一下我对大数据领域将来趋势的几个判断。oop

数据规模会继续扩大，大数据将继续发扬光大

前面已经提到过，大数据已经度过了太高指望的峰值和泡沫化的底谷期，如今正在稳步向前发展。作这样判断主要有如下 2 个缘由：学习

上游数据规模会继续增加，特别是因为 IOT 技术的发展和成熟，以及将来 5G 技术的铺开。在可预测的将来，数据规模仍将继续快速增加，这是可以带动大数据持续稳定向前发展的基本动力。
下游数据产业还有不少发展的空间，还有不少数据的价值咱们没有挖掘出来。

虽然如今人工智能，区块链抢去了大数据的风口位置，也许大数据成不了将来的主角，但大数据也绝对不是跑龙套的，大数据仍将扮演一个重要而基础的角色。能够这么说，只要有数据在，大数据就永远不会过期。我想在大部分人的有生之年，咱们都会见证大数据的持续向上发展。区块链

数据的实时性需求将更加突出

以前大数据遇到的最大挑战在于数据规模大（因此你们会称之为“大数据”），通过工业界多年的努力和实践，规模大这个问题基本已经解决了。接下来几年，更大的挑战在于速度，也就是实时性。而大数据的实时性并非指简单的传输数据或者处理数据的实时性，而是从端到端的实时，任何一个步骤速度慢了，就影响整个大数据系统的实时性。因此大数据的实时性，包括如下几个方面：大数据

快速获取和传输数据
快速计算处理数据
实时可视化数据
在线机器学习，实时更新机器学习模型

目前以 Kafka，Flink 为表明的流处理计算引擎已经为实时计算提供了坚实的底层技术支持，相信将来在实时可视化数据以及在线机器学习方面会有更多优秀的产品涌现出来。当大数据的实时性加强以后，在数据消费端会产生更多有价值的数据，从而造成一个更高效的数据闭环，促进整个数据流的良性发展。

大数据基础设施往云上迁移势不可挡

目前IT基础设施往云上迁移再也不是一个你们还须要争论的问题，这是大势所趋。固然我这边说的云并不仅仅指公有云，也包括私有云，混合云。由于因为每一个企业的业务属性不一样，对数据安全性的要求不一样，不可能把全部的大数据设施都部署在公有云上，但向云上迁移这是一个将来注定的选择。目前各大云厂商都提供了各类各样的大数据产品以知足各类用户需求，包括平台型（PAAS) 的 EMR ，服务型 (SAAS) 的数据可视化产品等等。

大数据基础设施的云化对大数据技术和产品产生也有相应的影响。大数据领域的框架和产品将更加 Cloud Native 。

计算和存储的分离。咱们知道每一个公有云都有本身对应的分布式存储，好比 AWS 的 S3 。 S3 在一些场合能够替换咱们所熟知的 HDFS ，并且成本更低。而 S3 的物理存储并非在 EC2 上面，对 EC2 来讲， S3 是 remote storage 。因此若是你要是 AWS 上面作大数据开发和应用，并且你的数据是在 S3 上，那么你就天然而然用到了计算和存储的分离。
拥抱容器，与 Kubernate 的整合大势所趋，咱们知道在云环境中 Kuberneate 基本上已是容器资源调度的标准。
更具备弹性（Elastic）。
与云上其余产品和服务整合更加紧密。

大数据产品全链路化

全链路化是指提供端到端的全链路解决方案，而不是简单的堆积一些大数据产品组件。以 Hadoop 为表明的大数据产品一直被人诟病的主要问题就是用户使用门槛太高，二次开发成本过高。全链路化就是为了解决这一问题，用户须要的并非 Hadoop，Spark，Flink 等这些技术，而是要以这些技术为基础的能解决业务问题的产品。 Cloudera 的从 Edge 到 AI 是我比较认同的方案。大数据的价值并非数据自己，而是数据背后所隐藏的对业务有影响的信息和知识。下面是一张摘自 wikipedia 的经典数据金字塔的图。

大数据技术就是对最原始的数据进行不断处理加工提炼，金字塔每上去一层，对应的数据量会越小，同时对业务的影响价值会更大更快。而要从数据（Data) 最终提炼出智慧（Wisdom），数据要通过一条很长的数据流链路，没有一套完整的系统保证整条链路的高效运转是很难保证最终从数据中提炼出来有价值的东西的，因此大数据将来产品全链路化是另一个大的趋势。

大数据技术往下游数据消费和应用端转移

上面讲到了大数据的全链路发展趋势，那么这条长长的数据链路目前的情况是如何，将来又会有什么样的趋势呢？

个人判断是将来大数据技术的创新和发力会更多的转移到下游数据消费和应用端。以前十多年大数据的发展主要集中在底层的框架，好比最开始引领大数据风潮的 Hadoop ，后来的计算引擎佼佼者 Spark，Flink 以及消息中间件 Kafka ，资源调度器 Kubernetes 等等，每一个细分领域都涌现出了一系列优秀的产品。总的来讲，在底层技术框架这块，大数据领域已经基本打好了基础，接下来要作的是如何利用这些技术为企业提供最佳用户体验的产品，以解决用户的实际业务问题，或者说将来大数据的侧重点将从底层走向上层。以前的大数据创新更偏向于 IAAS 和 PAAS ，将来你将看到更多 SAAS 类型的大数据产品和创新。

从近期一些国外厂商的收购案例，咱们能够略微看出一些端倪。

一、2019 年 6 月 7 日，谷歌宣布以 26 亿美圆收购了数据分析公司 Looker，并将该公司并入 Google Cloud。
二、2019 年 6 月 10 日，Salesforce 宣布以 157 亿美圆的全股票交易收购 Tableau ，旨在夯实在数据可视化以及帮助企业解读所使用和所积累的海量数据的其余工具方面的工做。
三、2019 年 9 月初，Cloudera 宣布收购 Arcadia Data 。 Arcadia Data 是一家云原生 AI 驱动的商业智能实时分析厂商。

面对最终用户的大数据产品将是将来大数据竞争的重点，我相信会将来大数据领域的创新也未来源于此，将来 5 年内大几率至少还会再出一个相似 Looker 这样的公司，可是很难再出一个相似 Spark 的计算引擎。

底层技术的集中化和上层应用的全面开花

学习过大数据的人都会感叹大数据领域的东西真是多，特别是底层技术，感受学都学不来。通过多年的厮杀和竞争，不少优秀的产品已经脱颖而出，也有不少产品慢慢走向消亡。好比批处理领域的 Spark 引擎基本上已经成为批处理领域的佼佼者，传统的 MapReduce 除了一些旧有的系统，基本不太可能会开发新的 MapReduce 应用。 Flink 也基本上成为低延迟流处理领域的不二选择，原有的 Storm 系统也开始慢慢退出历史舞台。一样 Kafka 也在消息中间件领域基本上占据了垄断地位。将来的底层大数据生态圈中将再也不有那么多的新的技术和框架，每一个细分领域都将优胜劣汰，走向成熟，更加集中化。将来更大的创新将更多来来自上层应用或者全链路的整合方面。在大数据的上层应用方面将来将会迎来有更多的创新和发展，好比基于大数据上的BI产品， AI 产品等等，某个垂直领域的大数据应用等等，我相信将来咱们会看到更多这方面的创新和发展。

开源闭源并驾齐驱

大数据领域并非只有 Hadoop，Spark，Flink 等这类你们耳熟能详的开源产品，还有不少优秀的闭源产品，好比 AWS 上的 Redshift ，阿里的 MaxCompute 等等。这些产品虽然没有开源产品那么受开发者欢迎，可是他们对于不少非互联网企业来讲是很是受欢迎的。由于对于一个企业来讲，采用哪一种大数据产品有不少因素须要考虑，否开源并非惟一标准。产品是否稳定，是否有商业公司支持，是否足够安全，是否能和现有系统整合等等每每是某些企业更须要考虑的东西，而闭源产品每每在这类企业级产品特性上具备优点。

最近几年开源产品受公有云的影响很是大，公有云能够无偿享受开源的成果，抢走了开源产品背后的商业公司不少市场份额，因此最近不少开源产品背后的商业公司开始改变策略，有些甚至修改了 Licence 。不过我以为公有云厂商不会杀死那些开源产品背后的商业公司，不然就是杀鸡取卵，杀死开源产品背后的商业公司，其实就是杀死开源产品的最大技术创新者，也就是杀死开源产品自己。我相信开源界和公有云厂商最终会取得一个平衡，开源仍然会是一个主流，仍然会是创新的主力，一些优秀的闭源产品一样也会占据必定的市场空间。

最后我想再次总结下本文的几个要点：

一、目前大数据已经度过了最火的峰值期和泡沫化的底谷期，如今正处于稳步向前发展的阶段。
二、数据规模会继续扩大，大数据将继续发扬光大
三、数据的实时性需求将更加突出
四、大数据基础设施往云上迁移势不可挡
五、大数据产品全链路化
六、大数据技术往下游数据消费和应用端转移
七、底层技术的集中化和上层应用的全面开花
八、开源闭源并驾齐驱

11 月 28-30 日，Apache Flink 及大数据领域年度盛会 Flink ForwardAsia 2019 将在北京国家会议中心举办，更多大数据领域前沿趋势、一线厂商重磅案例，你想获得的想不到的都来了，错过可能后悔一全年，详细了解大会详细议程信息。

做者简介：章剑锋（简锋），开源界老兵，Github ID：@zjffdu，Apache Member，曾就任于 Hortonworks，目前在阿里巴巴计算平台事业部任高级技术专家，并同时担任 Apache Tez、Livy 、Zeppelin 三个开源项目的 PMC ，以及 Apache Pig 的 Committer。有幸很早就接触了大数据和开源，但愿能够在开源领域为大数据和数据科学作点贡献。

阅读原文

本文为云栖社区原创内容，未经容许不得转载。