Spark学习笔记

本文整理自《Spark快速大数据分析》,其中SparkSQL还没学习,往后补上 第二章 Spark入门 RDD(弹性分布式数据集)是Spark对分布式数据和计算的基本抽象。 每一个Spark应用都有一个驱动器程序来发起集群上的并行操做。驱动器程序包含应用的main函数,而且定义了集群上的分布式数据集,还对数据集应用了相关操做。驱动器程序通常要管理多个执行器。若是是本地模式下,则全部的工做都会在单个
相关文章
相关标签/搜索