Hadoop面试题总结（五）- 优化

时间 2021-08-12

标签 html 网络 ide 性能优化 orm htm 内存栏目 Hadoop 繁體版

原文原文链接

Mapreduce 程序效率的瓶颈在于两点：html

1）计算机性能网络

CPU、内存、磁盘健康、网络ide

2）I/O 操做优化性能

（1）数据倾斜优化

（2）map和reduce数设置不合理orm

（3）reduce等待太久htm

（4）小文件过多内存

（5）大量的不可分块的超大文件it

（6）spill次数过多io

（7）merge次数过多等

1）数据输入

（1）合并小文件：在执行mr任务前将小文件进行合并，大量的小文件会产生大量的map任务，增大map任务装载次数，而任务的装载比较耗时，从而致使mr运行较慢。

（2）采用ConbinFileInputFormat来做为输入，解决输入端大量小文件场景。

2）map阶段

（1）减小spill次数：经过调整io.sort.mb及sort.spill.percent参数值，增大触发spill的内存上限，减小spill次数，从而减小磁盘 IO。

（2）减小merge次数：经过调整io.sort.factor参数，增大merge的文件数目，减小merge的次数，从而缩短mr处理时间。

（3）在 map 以后先进行combine处理，减小I/O。