RDD运行原理------学习笔记

RDD实现管道化,避免中间数据存储;编程 RDD:是一个分布式对象集合,本质上是一个只读的分区记录集合,每一个RDD可分红多个分区,每一个分区就是一个数据集片断,而且一个RDD的不一样分区能够被保存到集群中不一样的节点上,从而能够在集群中的不一样节点上进行并行计算;网页爬虫 转换(Transformation):map、join、groupby、filter等;粗粒度修改;不适合网页爬虫;实际上R
相关文章
相关标签/搜索