【Spark】Spark 基本概念、模块和架构

本文结构如下: 基本概念 基本模块 基本架构 一、基本概念 RDD(Resilient Distributed Datasets):弹性分布式数据集,只读分区记录的集合,Spark 对所处理数据的基本抽象。RDD 是 Spark 分发数据和计算的基础抽象类。一个 RDD 是一个不可改变的分布式集合对象,因此在使用 scala 编写时,前面加修饰符 val 。Spark 中 的计算可以简单抽象为对
相关文章
相关标签/搜索