Hadoop-Python实现Hadoop Streaming分组和二次排序

分组(partition) Hadoop streaming框架默认状况下会以’/t’做为分隔符,将每行第一个’/t’以前的部分做为key,其他内容做为value, 若是没有’/t’分隔符,则整行做为key;这个key/tvalue对又做为该map对应的reduce的输入。 -D stream.map.output.field.separator 指定分割key分隔符,默认是/t -D strea
相关文章
相关标签/搜索