Spark中RDD概述

RDD 设计背景:因机器运算图计算,有不断的迭代计算,mapreduce的io开销太大。为解决此类问题,不用担忧磁盘反复读写,序列化反序列化这种开销,构建一张DAG的有向无环图,能够实现数据的管道化处理(一个操做结束后把数据扔给下个操做做为输入,有效避免数据中间存储)。web 概念 分布式对象集合,本质上是一个只读的分区记录集合,每一个RDD可分红多个分区,每一个分区就是一个数据集片断,而且一个R
相关文章
相关标签/搜索