Spark-RDD-02基本操做详解

Spark中RDD是一个不可变的分布式对象集合,每一个RDD都被分为多个分区,这些分区被分发到集群的不一样的节点中进行计算。shell SparkContext是Spark的编程主入口点,能够被用于在集群中建立RDDs,在spark-shell中被系统默认建立为sc。编程 两种建立RDD的方式:(1)调用SparkContext的parallelize()方法将数据并行化成RDD数组       
相关文章
相关标签/搜索