RDD理解及宽依赖和窄依赖

1)RDD概念:Resilient Distributed Datasets  弹性分布式数据集,是一个容错的、并行的数据结构,可让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操做来操做这些数据。RDD是只读的记录分区的集合,只能经过在其余RDD执行肯定的转换操做(transformation操做)而建立。RDD可看做一个spark的对象,它自己存在于内存
相关文章
相关标签/搜索