RDD分区

一、分区的作用 RDD是弹性分布式数据集,通常RDD很大,会被分成很多个分区,分别保存到不同的节点上。 ①、对RDD分区,第一个功能是增加并行度。 例如,1个RDD有n个分区,分布在n个不同工作节点(WorkerNode)上面,这n个工作节点分别启动n个线程对这n个分区的数据进行并行处理,从而增加了任务的并行度。(1个工作节点上面有几个分区,启动几个线程) ②、对RDD分区,第二个功能是减少通信开
相关文章
相关标签/搜索