Spark笔记三之RDD,算子

RDD核心概念 Resilientdistributed DataSet,弹性分布式数据集apache 1是只读的,分区记录的集合对象缓存 2分区(partition)是RDD的基本组成单位,其决定了并行计算的粒度。应用程序对RDD的转换最终都是对其分区的转换。分布式 3用户能够指定RDD的分区个数,若是不指定则默认程序分配到的CPU的core数ide 4每一个分区被影射为一个block,在调用h
相关文章
相关标签/搜索