Spark学习总结---RDD

RDD概念:Resilient Distributed Dataset 弹性(优先放在内存,内存不够,磁盘)的分布式(RDD分布在多个节点上)数据集,Spark核心的数据抽象,本质是一个只读的分区记录集合 特点 一组分片(Partition),即数据集的基本组成单位。对于RDD来说,每个分片都会被一个计算任务处理,并决定并行计算的粒度。用户可以在创建RDD时指定RDD的分片个数,如果没有指定,那么
相关文章
相关标签/搜索