关于spark当中生成的RDD分区的设置情况。

问题描述:我们知道在spark当中是对RDD进行操作的。所以我们想把数据源当中的数据转化成很多的数据集,这也就是partition的由来。 而我们在将数据转换成RDD之后。我们可以通过设置partition的数量来让计算的效率更高。 首先来看一下官网创建的RDD的描述: 从这段描述当中我们可以看到。通过parallelize来个创建RDD。这个时候创建的partiton数 量是根据集群当中的CPU
相关文章
相关标签/搜索