MR优化总结

优化前 1.熟知业务要求 2.熟知数据分布状态(是否倾斜、是不是多个小文件等),可使用采样来了解数据 通用型优化策略 1.文件存储格式 使用更加优化的格式的文件,例如Parquet、ORC,综合来讲,ORC最优。 2.文件压缩 能够在mr各阶段启用压缩,例如:数据块能够被压缩(reduce输出能够被压缩)、map输出数据能够被压缩(减小shuffle过程当中传输的数据量) 3.shuffle优化
相关文章
相关标签/搜索