RDD的建立方式及注意事项

1 RDD的建立方式 1.1 SparkContext’s parallelize(并行化集合) 并行化集合经过调用SparkContext的并行化方法在驱动程序(Scala Seq)中的现有集合上建立的。复制集合的元素以造成可并行操做的分布式数据集。web val data = Array(1, 2, 3, 4, 5) val distData = sc.parallelize(data) 并行
相关文章
相关标签/搜索