spark core之数据分区(七)

简介   spark一个最重要的特性就是对数据集在各个节点的分区进行控制。控制数据分布能够减小网络开销,极大地提高总体性能。   只有Pair RDD才有分区,非Pair RDD分区的值是None。若是RDD只被扫描一次,不必预先分区处理;若是RDD屡次在诸如链接这种基于键的操做中使用时,分区才有做用。java 分区器   分区器决定了RDD的分区个数及每条数据最终属于哪一个分区。   spark
相关文章
相关标签/搜索