RDD相关概念

RDD概念: RDD 定义为弹性分布式数据集,包含了只读的、分区的、分布式计算的概念;RDD是个类 1、一个数据分区的列表(hdfs的所有数据块的位置信息,保存在RDD类成员变量Array中) 2、保存了数据块上面的计算方法,这个计算方法会应用到每一个数据块 3、一个对其他RDD的依赖,是一个集合,spark就是通过这种依赖关系,像流水一样处理我们的数据    当分区的数据计算失败,只需要根据流水
相关文章
相关标签/搜索