配置hadoop,hive压缩

hadoop的压缩大体分为三个步骤: 1.map阶段: 压缩文件通过split分片进入到maptask 所以压缩文件必须是支持分片的(text,lzo[index]) 2.shuffle阶段 mapshuffle落地到磁盘时,选用压缩速度快的格式。 3.reduce output阶段 分为两种场景: 一.reduce的输出作为下一个任务的输入,此时压缩文件最好采用支持分片的格式,或者保证outpu
相关文章
相关标签/搜索