SparkCore抽象之RDD

【弹性的】分布式的数据集 弹性的:灵活的 Rdd的特性: 1、rdd是分布式的:rdd里面的数据实际上是分布在集群的不同节点上的。 注:数据是可分区的,分区的个数和hdfs上文件块的个数有关,默认一个文件块对应一个分区,一个分区对于一个rdd里面的一部分文件。 2、rdd是可分区的:分区的个数是我们可以指定的,但是默认的情况下,一个hdfs上的文件块就是一个分区,一个分区对应一个rdd里面的一部分
相关文章
相关标签/搜索