mapreduce 多文件输出新API续

时间 2019-11-20

原文原文链接

对于上一篇hadoop mapreduce 多文件输出，有一些地方介绍的不许确，这里作个续简单更正一下，同时正好解决了上一篇的不能多文件夹输出的问题 java

一、针对于上一篇代码中的 MultipleOutputs.addNamedOutput(job, "errorlog",
TextOutputFormat.class, Text.class, NullWritable.class); 方法，其实第二个参数并不是是这么用的，下面看代码： ide

private MultipleOutputs<NullWritable, Text> multipleOutputs = null;
	@Override
	protected void reduce(IntWritable key, Iterable<Text> values,Context context)
			throws IOException, InterruptedException {
		for(Text val:values){
			multipleOutputs.write("KeySplit", NullWritable.get(), val, key.toString()+"/");
			multipleOutputs.write("AllData", NullWritable.get(), val);
		}
	}

write函数不少重载方法，以前用的是三个参数的，这个方法实际上是将全部的reduce输出都输出到一个文件夹中，函数

这时候咱们在调用MultipleOutputs.addNamedOutput()函数的时候传递的第二个参数为多个，因此会致使 oop

-rw-r--r--   2 hadoop supergroup   10569073 2014-06-06 11:50 /test/aa/fileRequest-m-00063.lzo
-rw-r--r--   2 hadoop supergroup   10512656 2014-06-06 11:50 /test/aa/fileRequest-m-00064.lzo
-rw-r--r--   2 hadoop supergroup      68780 2014-06-06 11:51 /test/aa/firstIntoTime-m-00000.lzo
-rw-r--r--   2 hadoop supergroup      67901 2014-06-06 11:51 /test/aa/firstIntoTime-m-00001.lzo spa

这样的现象，并且会多输出不少没有用的空文件 code

那么其实write方法有一个带有四个参数的方法，最后一个参数就恰巧是传递一个目录进去，目的是针对于不一样的逻辑将reduce产生的数据输出到不一样的文件夹目录下。如第一段代码中的multipleOutputs.write("KeySplit", NullWritable.get(), val, key.toString()+"/");语句，最后一个参数的做用就是相将key做为文件夹，将具备相同key 的数据输出到这个文件夹中，后面跟着一个“/” 表明是当前目录下，当前目录指的确定不是项目的当前目录，他是在执行hadoop jar 时传递的输出目录的参数，如：hadoop jar test.jar com.TestJob /input /output orm

假设数据是这样的：
1 丽梅
1 小辉
2 小红
3 大华 ip

那么将输出三个文件夹分别为
/output/1
/output/2
/output/3
其中/output/1这个文件夹中一个文件，内容为 hadoop

1 丽梅
1 小辉 get

write函数还有其余方法，暂时尚未研究，并且针对于write方法的第一个函数也没有去研究，若是有时间，会把多文件输出详细总结一下

注：在配置job的时候

这句代码

MultipleOutputs.addNamedOutput(job, "errorlog",
    TextOutputFormat.class, Text.class, NullWritable.class);

就写一次就够了