关于RDD分区(一)

RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区,分别保存在不同的节点上,作用有二:增加并行度和减少通信开销(连接操作),例如下图: RDD分区原则: RDD分区的一个原则是使得分区的个数尽量等于集群中的CPU核心(core)数目 对于不同的Spark部署模式而言(本地模式、Standalone模式、YARN模式、Mesos模式),都可以通过设置spark.default.parall
相关文章
相关标签/搜索