从hadoop框架与MapReduce模式中谈海量数据处理

时间 2021-01-18

原文原文链接

废话不说直接来一张图如下：从JVM的角度看Map和Reduce Map阶段包括：第一读数据：从HDFS读取数据 1、问题:读取数据产生多少个Mapper？？ Mapper数据过大的话，会产生大量的小文件，由于Mapper是基于虚拟机的，过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源； Mapper数太小，并发度过小，Job执行时间过长，无法充分利用分布式硬件资

>>阅读原文<<