MapReduce过程详解及其性能优化

时间 2021-01-12

原文原文链接

从JVM的角度看Map和Reduce Map阶段包括：第一读数据：从HDFS读取数据 1、问题:读取数据产生多少个Mapper？？ Mapper数据过大的话，会产生大量的小文件，由于Mapper是基于虚拟机的，过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源； Mapper数太小，并发度过小，Job执行时间过长，无法充分利用分布式硬件资源； 2、Mapper数

>>阅读原文<<