Hive解决数据倾斜问题及Hive优化

时间 2019-12-07

标签 hive 解决数据倾斜问题优化栏目 Hadoop 繁體版

原文原文链接

数据倾斜概述简单来讲数据倾斜就是数据的key的分化严重不均，形成一部分数据不少，一部分数据不多的状况。举个word count的入门例子，在map阶段造成了（“hello”,1）的形式，而后在reduce阶段进行value统计，算出"hello"出现的次数，假设word count的文本大小是100G，其中70G都是"hello",剩下的30G是其它单词，那就会造成70G的数据量交给一个redu

>>阅读原文<<