hive优化及数据倾斜总结

在对hive进行优化以前应理解mapreduce的原理 map taskhtml 程序会根据InputFormat将输入文件分割成splits,每一个split会做为一个map task的输入,每一个map task会有一个内存缓冲区,输入数据通过map阶段处理后的中间结果以及Partition结果都序列化成字节数组写入到缓冲区,而整个内存缓冲区就是一个字节数组。缓冲区的做用:批量收集map结果,
相关文章
相关标签/搜索