Spark中RDD概述

RDD 设计背景:因机器运算图计算,有不断的迭代计算,mapreduce的io开销太大。为解决此类问题,不用担心磁盘反复读写,序列化反序列化这种开销,构建一张DAG的有向无环图,可以实现数据的管道化处理(一个操作结束后把数据扔给下个操作作为输入,有效避免数据中间存储)。 概念 分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同
相关文章
相关标签/搜索