Spark分区方式详解

1、Spark数据分区方式简要              在Spark中,RDD(Resilient Distributed Dataset)是其最基本的抽象数据集,其中每一个RDD是由若干个Partition组成。在Job运行期间,参与运算的Partition数据分布在多台机器的内存当中。这里可将RDD当作一个很是大的数组,其中Partition是数组中的每一个元素,而且这些元素分布在多台机器中
相关文章
相关标签/搜索