spark sql 性能优化

一 设置shuffle的并行度sql 咱们能够经过属性spark.sql.shuffle.partitions设置shuffle并行度缓存   二 Hive数据仓库建设的时候,合理设置数据类型,好比你设置成INT的就不要设置成BIGINT,减小数据类型没必要要的内存开销网络   三 SQL优化优化   四 并行的处理查询结果spa 对于Spark SQL查询的结果,若是数据量比较大,好比超过100
相关文章
相关标签/搜索