三,深刻RDDoop
RDD自己是一个抽象类,具备不少具体的实现子类:spa
RDD都会基于Partition进行计算:内存
默认的Partitioner以下所示:文档
其中HashPartitioner的文档说明以下:it
另一种经常使用的Partitioner是RangePartitioner:io
RDD在持久化的须要考虑内存策略:class
Spark提供不少StorageLevel可供选择:im
于此同时Spark提供了unpersistRDD:margin
对RDD自己还有一个很是重要的CheckPoint操做:top
其中doCheckpoint的细节以下:
以NewHadoopRDD为例,其内部的信息以下所示:
以WholeTextFileRDD为例,其内部的信息以下所示:
RDD在产生做业调用的时候,经典的过程以下所示: