hive的性能优化

一、计算数据优化 计算数据优化主要有两种思路,一种是减小处理数据量;一种是解决数据倾斜。数据倾斜通常能够分为三种:html  Mapper阶段数据倾斜 Join阶段数据倾斜 Reduce阶段数据倾斜 1.1 Mapper阶段数据倾斜node 主要有两种方式:sql 能够修改读取数据的表的任务,最后插入数据时按照均衡的key值从新分布。也就是在最后加上distribute by *** 若是Mapp
相关文章
相关标签/搜索