Spark笔记02

今天讲一下spark的基本概念: 想要了解spark,首先要了解sparkRDD(弹性分布式数据集)。spark应用程序通过使用spark的转换API可以将RDD封装为一系列具有血缘关系的RDD,也就是DAG。只有通过spark的动作API才会将RDD及其DAG提交到DAGScheduler。RDD负责从数据源迭代读取数据。这样讲可能有点不太明白,就好比RDD是一个装载数据得容器,我们从数据源读取
相关文章
相关标签/搜索