Spark源码分析系列(目录)

记录本身学习研究 Spark 的探索过程,为后续总结奠基基础。html

本文代码研究以 Spark 2.3.0 源代码为基准,若是看本文,请阅读时,下载对应的 Spark 版本。apache

图1 伯克利的数据分析软件栈BDAS(Berkeley Data Analytics Stack)架构

这里要先说BDAS(伯克利数据分析栈),是伯克利大学的AMPLab打造的用于大数据的分析的一套开源软件栈,这其中包括了这两年火的爆棚的Spark(Spark Core、Spark SQL、Spark Streaming、MLLib和GraphX等组件,这些组件分别处理Spark Core提供内存计算框架、SparkStreaming的实时处理应用、Spark SQL的即时查询、MLlib或MLbase的机器学习和GraphX的图处理),也包括了冉冉升起的分布式内存系统Alluxio(Tachyon),固然还包括著名的资源管理的开源软件Mesos。能够说Amplab最近几年引领了大数据发展的技术创新的浪潮。从它的官网能够看到这张图片,其中,有很多文字是有连接,指向各自项目的主页的。要查看这些连接,能够到上面BDAS的官网。框架

一、论文篇机器学习

二、准备篇url

三、核心篇

图2 一个 Spark 做业执行图

1)Spark 的初始化

2)Spark 内存模型

  • ......

3)Spark 存储体系

  • Spark 核心篇-SerializerManager
  • Spark 核心篇-BroadcastManager
  • Spark 核心篇-ShuffleManager
  • Spark 核心篇-MemoryManager
  • Spark 核心篇-NettyBlockTransferService
  • Spark 核心篇-BlockManagerMaster
  • Spark 核心篇-BlockManager

4)Spark 计算体系

  • Spark 核心篇-LiveListenerBus
  • Spark 核心篇-MapOutputTracker
  • Spark 核心篇-DAGScheduler
  • Spark 核心篇-TaskScheduler
  • Spark 核心篇-ExecutorAllocationManager
  • Spark 核心篇-OutputCommitCoordinator
  • Spark 核心篇-ContextClearner

5)Spark 运行模式

  • ......

四、组件篇

1)Spark SQL

  • ......

2)Spark Streaming

  • ......

3)Spark MLib

  • ......

4)Spark Graphx

  • ......

 

五、公共篇

1)Tags

相关文章
相关标签/搜索