spark结合hive数据倾斜的几种解决方案

时间 2019-12-07

标签 spark 结合 hive 数据倾斜几种解决方案栏目 Spark 繁體版

原文原文链接

数据倾斜表现：性能有的task执行很快，有的很慢或者内存溢出blog 定位数据倾斜的位置：内存用client模式提交，观察log资源解决方案it 一、在hive etl时进行数据聚合，把key相同的数据聚合成一条数据，这样就可能不用shuffle了，从而解决数据倾斜。io 当没办法对key进行聚合时也能够选择其它粒度聚合，好比数据中包含了几个城市，几个职业，能够选择合适的粒度聚合。a

>>阅读原文<<