大数据:Spark Core (一) 什么是RDD的Transformation和Actions以及Dependency?

1. Spark的RDD RDD(Resilient Distributed Datasets),弹性分布式数据集,是对分布式数据集的一种抽象。 RDD所具有5个主要特性: 一组分区列表 计算每个数据分片的函数 RDD上的一组依赖 对于Key Value 对的RDD,会有一个Partitioner, 这是数据的分区器,控制数据分区策略和数量 一组Preferred Location信息(如HDFS
相关文章
相关标签/搜索