推荐参考资料:html
https://my.oschina.net/u/1451042/blog/352810性能
http://www.cnblogs.com/ihongyan/p/4855256.htmlspa
map task 个数严重影响mr的性能。网上不少资料,讲解了原理和方法,我这里再也不敖述。我总结了两种修改方法,但愿对你们有帮助。.net
方法1:修改 hdfs 的blocksize,这种方法很不可取,须要从新启动集群。关键是之前的数据依然保持者之前blocksize的大小,新数据才会是新的blocksize的大小。好比之前是128M,修改成512M。之前的数据没变化,blocksize依然是128M。orm
方法二:推荐方法。代码中设置,最灵活,根据不一样需求,设置不同的值。设置 mapred.min.split.size 的大小代码中添加FileInputFormat.setMinInputSplitSize,单位是字节,如个人代码:htm
job.setMapOutputValueClass(IntWritable.class);
job.setNumReduceTasks(1);
//设置最小分片为512M
FileInputFormat.setMinInputSplitSize(job, 1024*1024*512);
FileInputFormat.addInputPath(job, new Path("/usr/keyword/input"));blog
补充说明:input
TextInputFormat.setMinInputSplitSize(job,1024L);//设置最小分片大小
TextInputFormat.setMaxInputSplitSize(job,1024×1024×10L);//设置最大分片大小it