spark 大型项目实战(四十一):算子调优之使用repartition解决Spark SQL低并行度的性能问题

时间 2019-12-04

标签 spark 大型项目实战四十一算子使用 repartition 解决 sql 并行性能问题栏目 Spark 繁體版

原文原文链接

并行度：以前说过，并行度是本身能够调节，或者说是设置的。web 一、spark.default.parallelism 二、textFile()，传入第二个参数，指定partition数量（比较少用）算法我们的项目代码中，没有设置并行度，实际上，在生产环境中，是最好本身设置一下的。官网有推荐的设置方式，你的spark-submit脚本中，会指定你的application总共要启动多少个execu

>>阅读原文<<