菜鸟的Spark 源码学习之路 -8 RDD

前文对shuffle的过程进行了学习,shuffle操作本身是基于RDD之间的依赖关系,在RDD之间产生宽依赖是则会有Shuffle。 RDD是Spark中最重要的数据抽象。本文开始,我们将学习SparkRdd的实现细节。 1. 概览 /** * A Resilient Distributed Dataset (RDD), the basic abstraction in Spark. Repr
相关文章
相关标签/搜索