Spark中键值对RDD数据分区|数据读取与保存|Text文件|Json文件|Sequence文件|Object对象文件

键值对RDD数据分区 Spark目前支持Hash分区和Range分区,和用户自定义分区。Hash分区为当前的默认分区。分区器直接决定了RDD中分区的个数、RDD中每条数据通过Shuffle后进入哪一个分区和Reduce的个数。 (1)只有Key-Value类型的RDD才有分区器,非Key-Value类型的RDD分区的值是None (2)每一个RDD的分区ID范围:0~numPartitions-1
相关文章
相关标签/搜索