30天搞定spark源码系列-RDD篇

题记 通过本篇的梳理,预计大家可以对spark的RDD有更加深入的理解,而不是只为了面试做一个概念的理解。。。 RDD基本概念 1、定义 对于这个定义,网络一搜一大把,这里借用一下。 RDD(Resilient Distributed Dataset)弹性分布式数据集,是spark框架中最基本的抽象元素。具有不可变,可伸缩、易并行的特点。 注意到RDD的组成了吗?有一个Dataset 哦?那是不是
相关文章
相关标签/搜索