hadoop获取分片的路径

在mapper中获取当前正在处理的HDFS文件名/HDFS目录名 linux

默认状况下,Hadoop是按行来对数据进行处理的,因为对每一行数据,map()函数会被调用一次,咱们有时能够根据文件名/目录名来获取一些信息,从而把它们输出,例如,目录名中包含了日期,则咱们能够取出来并输出到Reducer。 app

在map()函数中,咱们能够这样取文件名: 函数

     InputSplit inputSplit = context.getInputSplit();
     String fileName = ((FileSplit) inputSplit).getName(); oop

假设当前正在处理的HDFS文件路径为:/user/hadoop/abc/myFile.txt,则上面的 fileName 取到的是“myFile.txt”这样的字符串。 spa

但若是要获取其目录名“abc”,则能够这样作: hadoop

     InputSplit inputSplit = context.getInputSplit();
     String dirName = ((FileSplit) inputSplit).getPath().getParent().getName(); 字符串

相关文章
相关标签/搜索