Spark性能调优-----算子调优(四)repartition解决SparkSQL低并行度问题

常规性能调优中咱们讲解了并行度的调节策略,可是,并行度的设置对于Spark SQL是不生效的,用户设置的并行度只对于Spark SQL之外的全部Spark的stage生效。 Spark SQL的并行度不容许用户本身指定,Spark SQL本身会默认根据hive表对应的HDFS文件的split个数自动设置Spark SQL所在的那个stage的并行度,用户本身通spark.default.paral
相关文章
相关标签/搜索