RDD运行原理------学习笔记

RDD实现管道化,避免中间数据存储; RDD:是一个分布式对象集合,本质上是一个只读的分区记录集合,每个RDD可分成多个分区,每个分区就是一个数据集片段,并且一个RDD的不同分区可以被保存到集群中不同的节点上,从而可以在集群中的不同节点上进行并行计算; 转换(Transformation):map、join、groupby、filter等;粗粒度修改;不适合网页爬虫;实际上RDD已经被实践证明可以
相关文章
相关标签/搜索