Spark RDD之Key-Value类型操作详解

partitionBy案例 1. 作用:对pairRDD进行分区操作,如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区, 否则会生成ShuffleRDD,即会产生shuffle过程。 2. 需求:创建一个4个分区的RDD,对其重新分区 (1)创建一个RDD scala> val rdd = sc.parallelize(Array((1,"aaa"),(2,"bbb
相关文章
相关标签/搜索