Spark六 数据分区

分区 1) Spark分布式程序中网络传输的通信代价很大,所以为了较少传输开销,需要控制RDD分区,和单节点的程序需要选择使用合适的数据结构一样,Spark程序需要选择合适的分区方式 2) 只有数据集是基于键时,分区才会有用,Spark可以确保同一个组的键出现在同一个节点上,比如使用键的哈希值做模运算 3) 如果不使用分区partitionBy(),则每次调用Join()等函数都对从来不会变化的数
相关文章
相关标签/搜索