Spark RDD分区知识总结

Spark RDD分区知识总结 1. RDD 1.1 RDD定义 RDD(Resilient Distributed Dataset)——弹性分布式数据集,是Spark中最基本的数据抽象 不可变(只读) 分区 自动容错 位置感知调度 可伸缩 1.2 RDD属性 (1)一组分区(Partition),即数据集的基本组成单位。对于RDD来说,每个分区都会被一个计算任务处理,并决定并行计算的粒度。用户可
相关文章
相关标签/搜索