spark基础--rdd的生成

时间 2020-01-01

标签 spark 基础 rdd 生成栏目 Spark 繁體版

原文原文链接

使用parallelize建立RDD 也能够使用makeRDD来建立RDD。ide

经过查看源码能够发现，makeRDD执行的时候，也是在调用parallelize函数，两者无区别。函数

经过 .textFile 能够经过文件读取项目路径和 hdfs 文件路径oop

*spa

makeRDD 和 parallelize 第二个参数为处理的并行度数量hadoop

不给定时，默认值为经过get

conf.getInt("spark.default.parallelism", math.max(totalCoreCount.get(), 2)) 获取源码

即获取 spark.default.parallelism 参数值it

当参数值存在时，使用 spark.default.parallelism 配置的参数spark

当参数不存在时，比较系统总共可用核数和 2 ，哪一个大使用哪一个class

经过.textFile 第二个参数为处理的并行度数量（textFile对数据切分规则和hadoop对文件切分规则一致）

不给定时，默认值为取 conf.getInt("spark.default.parallelism", math.min(totalCoreCount.get(), 2))

即参数不存在时，比较系统总共可用核数和 2 ，哪一个小使用哪一个，可是不必定是分区数，取决于hadoop读取文件时的分片规则

查看源码可发现，底层调用的是 hadoopFile，所以假设参数默认值为 2

通过hadoop切片处理，会通过hadoop对文件进行切分，假如数据为5条，通过hadoop切片会分红 2 2 1 条数据

saveRDD 函数存储的分区数，即数据文本数量，取决于运行的并行度