spark基础知识三

主要围绕spark的底层核心抽象RDD和原理进行理解。主要包括以下几个方面 RDD弹性分布式数据集的依赖关系 RDD弹性分布式数据集的lineage血统机制 RDD弹性分布式数据集的缓存机制 spark任务的DAG有向无环图的构建 spark任务如何划分stage spark任务的提交和调度流程 1. RDD的依赖关系 RDD和它依赖的父RDD的关系有两种不同的类型 窄依赖(narrow depe
相关文章
相关标签/搜索