Spark分区

一、Spark为什么要分区     分区概念:分区是RDD内部并行计算的一个计算单元,RDD的数据集在逻辑上被划分为多个分片,每一个分片称为分区,分区的格式决定了并行计算的粒度,而每个分区的数值计算都是在一个任务中进行的,因此任务的个数,也是由RDD(准确来说是作业最后一个RDD)的分区数决定。     为什么要分区,这个借用别人的一段话来阐述。    数据分区,在分布式集群里,网络通信的代价很大
相关文章
相关标签/搜索