RDD源码分析--Iterator

RDD,Resilient Distributed Datasets,弹性分布式数据集。 在Spark中,通俗地可以认为是一个数据集合,只不过这个数据集合分布在不同的机器上,对外表现为一个整体。 一般来讲,对RDD进行操作比如map操作时分为两步,第一步为局部操作,即是对每台机器上的RDD的部分数据都进行map并行操作,第二步为汇总操作,将每台机器的执行结果进行汇总。 其中有一个问题是,RDD中的
相关文章
相关标签/搜索