弹性分布式数据集(RDD)的特性 以及应注意的问题

RDD的五大特性: 1.RDD是由一系列的partition组成的。 2.函数是作用在每一个partition(split)上的。 3.RDD之间有一系列的依赖关系。 4.分区器是作用在K,V格式的RDD上。 5.RDD提供一系列最佳的计算位置。 RDD理解图: 注意: textFile方法底层封装的是读取MR读取文件的方式,读取文件之前先split,默认split大小是一个block大小。 RD
相关文章
相关标签/搜索