MapReduce过程详解及其性能优化

  从JVM的角度看Map和Reduce Map阶段包括: 第一读数据:从HDFS读取数据 1、问题:读取数据产生多少个Mapper??     Mapper数据过大的话,会产生大量的小文件,由于Mapper是基于虚拟机的,过多的Mapper创建和初始化及关闭虚拟机都会消耗大量的硬件资源;     Mapper数太小,并发度过小,Job执行时间过长,无法充分利用分布式硬件资源; 2、Mapper数
相关文章
相关标签/搜索