【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节:Spark架构设计(2)

三,深刻RDDoop

 

RDD自己是一个抽象类,具备不少具体的实现子类:spa

 

RDD都会基于Partition进行计算:内存

 

默认的Partitioner以下所示:文档

其中HashPartitioner的文档说明以下:it

另一种经常使用的Partitioner是RangePartitioner:io

RDD在持久化的须要考虑内存策略:class

Spark提供不少StorageLevel可供选择:im

于此同时Spark提供了unpersistRDD:margin

对RDD自己还有一个很是重要的CheckPoint操做:top

其中doCheckpoint的细节以下:

NewHadoopRDD为例,其内部的信息以下所示:

WholeTextFileRDD为例,其内部的信息以下所示:

RDD在产生做业调用的时候,经典的过程以下所示:

相关文章
相关标签/搜索