【Spark亚太研究院系列丛书】Spark实战高手之路-第3章Spark架构设计与编程模型第3节：Spark架构设计(2)

时间 2019-11-13

标签 Spark亚太研究院系列丛书 spark 实战高手之路架构设计编程模型栏目 Spark 繁體版

原文原文链接

三，深刻RDDoop

RDD自己是一个抽象类，具备不少具体的实现子类：spa

RDD都会基于Partition进行计算：内存

默认的Partitioner以下所示：文档

其中HashPartitioner的文档说明以下：it

另一种经常使用的Partitioner是RangePartitioner：io

RDD在持久化的须要考虑内存策略：class

Spark提供不少StorageLevel可供选择：im

于此同时Spark提供了unpersistRDD:margin

对RDD自己还有一个很是重要的CheckPoint操做：top

其中doCheckpoint的细节以下：

以NewHadoopRDD为例，其内部的信息以下所示：

以WholeTextFileRDD为例，其内部的信息以下所示：

RDD在产生做业调用的时候，经典的过程以下所示：

相关文章

相关标签/搜索

Spark亚太研究院系列丛书

flume+spark+hive+spark

红包项目实战

网站建设指南

PHP 7 新特性

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<