从hadoop框架与MapReduce模式中谈海量数据处理

废话不说直接来一张图如下: 从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper??     Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源;     Mapper数太小,并发度过小,Job执行时间过长,无法充分利用分布式硬件资
相关文章
相关标签/搜索