Spark源码分析系列（目录）

时间 2019-11-06

标签 spark 源码分析系列目录栏目 Spark 繁體版

原文原文链接

记录本身学习研究 Spark 的探索过程，为后续总结奠基基础。html

本文代码研究以 Spark 2.3.0 源代码为基准，若是看本文，请阅读时，下载对应的 Spark 版本。apache

图1 伯克利的数据分析软件栈BDAS（Berkeley Data Analytics Stack）架构

这里要先说BDAS（伯克利数据分析栈），是伯克利大学的AMPLab打造的用于大数据的分析的一套开源软件栈，这其中包括了这两年火的爆棚的Spark（Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件，这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib或MLbase的机器学习和GraphX的图处理），也包括了冉冉升起的分布式内存系统Alluxio（Tachyon），固然还包括著名的资源管理的开源软件Mesos。能够说Amplab最近几年引领了大数据发展的技术创新的浪潮。从它的官网能够看到这张图片，其中，有很多文字是有连接，指向各自项目的主页的。要查看这些连接，能够到上面BDAS的官网。框架

一、论文篇机器学习

二、准备篇url

三、核心篇

图2 一个 Spark 做业执行图

1）Spark 的初始化

Spark 核心篇-SparkContext
Spark 核心篇-SparkEnv
Spark 核心篇-SparkConf
Spark 核心篇-RpcEnv
Spark 核心篇-SparkStatusTracker
Spark 核心篇-SecurityManager
Spark 核心篇-SparkUI
Spark 核心篇-MetricsSystem

2）Spark 内存模型

......

3）Spark 存储体系

Spark 核心篇-SerializerManager
Spark 核心篇-BroadcastManager
Spark 核心篇-ShuffleManager
Spark 核心篇-MemoryManager
Spark 核心篇-NettyBlockTransferService
Spark 核心篇-BlockManagerMaster
Spark 核心篇-BlockManager

4）Spark 计算体系

Spark 核心篇-LiveListenerBus
Spark 核心篇-MapOutputTracker
Spark 核心篇-DAGScheduler
Spark 核心篇-TaskScheduler
Spark 核心篇-ExecutorAllocationManager
Spark 核心篇-OutputCommitCoordinator
Spark 核心篇-ContextClearner

5）Spark 运行模式

......

四、组件篇

1）Spark SQL

......

2）Spark Streaming

......

3）Spark MLib

......

4）Spark Graphx

......

五、公共篇

1）Tags

Spark 公共篇-InterfaceStability