从大数据技术变迁猜一猜AI人工智能的发展

时间 2019-11-13

标签数据技术变迁人工智能发展繁體版

原文原文链接

目前大数据已经成为了各家互联网公司的核心资产和竞争力了，其实不只是互联网公司，包括传统企业也拥有大量的数据，也想把这些数据发挥出做用。在这种环境下，大数据技术的重要性和火爆程度相信没有人去怀疑。算法

而AI人工智能又是基于大数据技术基础上发展起来的，大数据技术已经很清晰了，可是AI目前还未成熟啊，因此本文就天马行空一下，从大数据的技术变迁历史中来找出一些端倪，猜一猜AI人工智能将来的发展。数据库

最近断断续续的在看《极客时间》中「从0开始学大数据」专栏的文章，受益不浅，学到了不少。尤为是很是喜欢做者李智慧讲的那句话“学习大数据最好的时间是十年前，其次就是如今”，把这句话改到AI也适用，“学习AI最好的时间是十年前，其次就是如今”，任何知识都是这样。下面咱们就来详细聊一聊。微信

1、先聊一聊大数据技术发展史？

咱们使用的各类大数据技术，最先起源于Google当年公布的三篇论文，Google FS（2003年）、MapReduce（2004年）、BigTable（2006年），其实Google当时并无公布其源码，可是已经把这三个项目的原理和实现方式在公布的论文中详细的描述了，这几篇论文面世后，就引爆了行业的大数据学习和研究的浪潮。网络

随后一个叫 Doug Cutting 的技术大牛（也就是写 Lucene 的那位，作JAVA的同窗应该都很熟悉）就开始根据Google公布的论文去开发相关系统，后来慢慢发展成了如今的 Hadoop，包括 MapReduce 和 HDFS。架构

可是在当时，使用 MapReduce 进行数据分析和应用仍是有很大门槛的，毕竟要编写 Map 和 Reduce 程序。只能大数据工程师上马，普通BI分析师仍是一脸懵逼。因此那个时候都是些大公司在玩。框架

既然有这么大门槛，就会有人敢于站出来去解决门槛，好比 Yahoo，他们开发一个叫作 Pig 的东西，Pig是一个脚本语言，按照Pig的语法写出来的脚本能够编译成 MapReduce 程序，而后直接在 Hadoop 上运行了。机器学习

这个时候，大数据开发的门槛确实降了一点。分布式

不过，Pig大法虽好，但仍是须要编写脚本啊，这仍是码农的活儿啊。人们就在想，有没有不用写代码的方法就能作大数据计算呢，还真有，这个世界的进步就是由一群善于思考的“懒人”推进的。工具

因而，Facebook公司的一群高智商家伙发布了一个叫作 Hive 的东西，这个 Hive 能够支持使用 SQL 语法直接进行大数据计算。原理其实就是，你只须要写一个查询的 SQL，而后 Hive 会自动解析 SQL 的语法，将这个SQL 语句转化成 MapReduce 程序去执行。oop

这下子就简单了，SQL 是BI/数据分析师们最为经常使用的工具了，今后他们能够无视码农，开开心心的独立去写Hive，去作大数据分析工做了。Hive今后就火爆了，通常公司的大多数大数据做业都是由Hive完成的，只有极少数较为复杂的需求才须要数据开发工程师去编写代码，这个时候，大数据的门槛才真真的下降了，大数据应用也才真正普及，大大小小的公司都开始在本身的业务上使用了。

可是，人们的追求不止如此，虽然数据分析便利了，可是你们又发现 MapReduce 程序执行效率不够高啊，其中有多种缘由，但有一条很关键，就是 MapReduce 主要是以磁盘做为存储介质，磁盘的性能极大的限制了计算的效率。

在这个时候，Spark 出现了，Spark 在运行机制上、存储机制上都要优于 MapReduce ，所以大数据计算的性能上也远远超过了 MapReduce 程序，不少企业又开始慢慢采用 Spark 来替代 MapReduce 作数据计算。

至此，MapReduce 和 Spark 都已成型，这类计算框架通常都是按“天”为单位进行数据计算的，所以咱们称它们为“大数据离线计算”。既然有“离线计算”，那就必然也会有非离线计算了，也就是如今称为的“大数据实时计算”。

由于在数据实际的应用场景中，以“天”为颗粒出结果仍是太慢了，只适合很是大量的数据和全局的分析，但还有不少业务数据，数据量不必定很是庞大，但它却须要实时的去分析和监控，这个时候就须要“大数据实时计算”框架发挥做用了，这类的表明有：Storm、Spark Streaming、Flink 为主流，也被称为流式计算，由于它的数据源像水流同样一点点的流入追加的。

固然，除了上面介绍的那些技术，大数据还须要一些相关底层和周边技术来一块儿支撑的，好比 HDFS 就是分布式文件系统，用于负责存储数据的，HBase 是基于HDFS的NoSQL系统、与 HBase相似的还有 Cassandra也都很热门。

2、再看一看大数据技术架构？

了解大数据相关技术能够先看

（图片来源网络）

这图基本上很全面的展现了大数据的技术栈，下面将其主要的部分罗列一下，以便有个清晰的认知：

大数据平台基础：

MapReduce，分布式离线计算框架
Spark，分布式离线计算框架
Storm，流式实时计算框架
Spark Streaming，流式实时计算框架
Flink，流式实时计算框架
Yarn，分布式集群资源调度框架
Oozie，大数据调度系统

分布式文件系统：

HDFS，分布式文件系统
GFS，分布式文件系统

SQL引擎：

Spark SQL （Shark），将SQL语句解析成Spark的执行计划在Spark上执行
Pig，Yahoo的发布的脚本语言，编译后会生成MapReduce程序
Hive，是Hadoop大数据仓库工具，支持SQL语法来进行大数据计算，把SQL转化MapReduce程序
Impala，Cloudera发布的运行在HDFS上的SQL引擎

数据导入导出：

Sqoop，专门用将关系数据库中的数据批量导入导出到Hadoop
Canal，能够实时将关系数据库的数据导入到Hadoop

日志收集：

Flume，大规模日志分布式收集

大数据挖掘与机器学习：

Mahout，Hadoop机器学习算法库
Spark MLlib，Spark机器学习算法库
TensorFlow，开源的机器学习系统

3、猜一猜AI人工智能的发展？

经过上面的回顾，咱们知道了，由于大量数据的产生致使大数据计算技术 MapReduce 的出现，又由于 MapReduce 的参与门槛问题，致使了 Pig、Hive的出现，正是由于这类上手容易的工具的出现，才致使大量的非专业化人员也能参与到大数据这个体系，所以致使了大数据相关技术的飞速发展和应用，又从而进一步推进了机器学习技术的出现，有了如今的AI人工智能的发展。

但目前人工智能技术的门槛还比较高，并非任何企业都能入场的，须要很是专业化的高端技术人才去参与，普通人员只能望而却步，所以AI技术的应用受到了极大的限制，因此也不断的有人提出对人工智能提出质疑。

讲到这里，有没有发现点什么问题？

历史的规律老是那么类似。能够猜想一下，人工智能的门槛有一天也会像 MapReduce 的开发门槛同样被打破，一旦人工智能的参与门槛下降了，各种大小企业都能结合本身的业务场景进入AI领域发挥优点了，那AI就真的进入高速发展的通道了，AI相关实际应用的普及就指日可待了。

恩，必定是这样的，哈哈，如今就能够等着大牛们将AI的基础平台建设好，而后下降参与门槛，进一步就迎来了AI的一片光明，你们今后就能够过上AI服务人类的美好生活了（畅想中…）。

以上，就是从大数据技术变迁想到AI人工智能发展的一些想法，欢迎你们留言交流，多多点击文章右下角的“好看”。

本文原创发布于微信公众号「不止思考」，欢迎关注，交流互联网认知、工做管理、大数据、架构、Web等技术。