【SPARK】- RDD分区

RDD是弹性分布式数据集,通常RDD很大,会被分成很多分区,分别保存在不同节点上 分区原则 RDD分区是使分区的个数尽量等于集群中的CPU核心数目 默认分区数 对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通过设置spark.default.parallelism这个参数的值来配置默认分区数。 本地模式:默认为本地机器的CPU数目,若设
相关文章
相关标签/搜索