Hadoop Streaming框架使用(二)

上一篇文章介绍了Streaming的各类参数,本文具体介绍使用方法。html

提交hadoop任务示例: app

  $HADOOP_HOME/bin/hadoop streaming \oop

-input /user/test/input -output /user/test/output \ htm

-mapper “mymapper.sh” -reducer “myreducer.sh” \blog

-file/home/work/mymapper.sh \排序

-file /home/work/myreducer.sh \hadoop

-jobconf mapred.job.name=”file-demo” ci

上面的命令提交了一个hadoop任务,输出和输入分别为 /user/test/output 和/user/test/input。 map程序为 mymapper.sh,reduce程序为myreducer.sh。这里须要注意必定要将这两个文件用-file分发到集群的节点上。最后一行指定了任务的名字。资源

 

还有一些较为复杂的使用,好比须要指定任务个数等,能够使用get

-jobconf mapred.job.map.capacity=m -jobconf mapred.job.reduce.capacity=n 

上面的命令设置最多同时运行m个map任务,n个reduce任务,若是m或n为0或者没有指定,则对应的capacity没有限制,默认配置就是0没有限制。建议在运行做业时都设置map和reduce capacity,防止做业占用过多资源。 

 

固然,这里只是简单介绍了最基本的用法,hadoop streaming还有不少高级使用方法,可一些很强大的排序指定功能,这里再也不过多介绍,有须要的朋友能够给我留言进行询问,只要我遇到过的问题必定给出解决方案。若是运行时出现错误,能够参见个人另外一篇文章——hadoop错误码

from:http://www.cnblogs.com/luchen927/archive/2012/01/16/2323479.html

相关文章
相关标签/搜索