记录本身学习研究 Spark 的探索过程,为后续总结奠基基础。html
本文代码研究以 Spark 2.3.0 源代码为基准,若是看本文,请阅读时,下载对应的 Spark 版本。apache
图1 伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack)架构
这里要先说BDAS(伯克利数据分析栈),是伯克利大学的AMPLab打造的用于大数据的分析的一套开源软件栈,这其中包括了这两年火的爆棚的Spark(Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件,这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib或MLbase的机器学习和GraphX的图处理),也包括了冉冉升起的分布式内存系统Alluxio(Tachyon),固然还包括著名的资源管理的开源软件Mesos。能够说Amplab最近几年引领了大数据发展的技术创新的浪潮。从它的官网能够看到这张图片,其中,有很多文字是有连接,指向各自项目的主页的。要查看这些连接,能够到上面BDAS的官网。框架
一、论文篇机器学习
二、准备篇url
三、核心篇
图2 一个 Spark 做业执行图
1)Spark 的初始化
2)Spark 内存模型
3)Spark 存储体系
4)Spark 计算体系
5)Spark 运行模式
四、组件篇
1)Spark SQL
2)Spark Streaming
3)Spark MLib
4)Spark Graphx
五、公共篇
1)Tags