Spark知识 之 Partition

本文是Spark知识总结帖,讲述Spark Partition相关内容。   1 什么是Partition  Spark RDD 是一种分布式的数据集,由于数据量很大,因此要它被切分并存储在各个结点的分区当中。从而当我们对RDD进行操作时,实际上是对每个分区中的数据并行操作。 图一:数据如何被分区并存储到各个结点                                          
相关文章
相关标签/搜索