虽然Hadoop是用java写的,可是Hadoop提供了Hadoop流,Hadoop流提供一个API, 容许用户使用任何语言编写map函数和reduce函数.
Hadoop流动关键是,它使用UNIX标准流做为程序与Hadoop之间的接口。所以,任何程序只要能够从标准输入流中读取数据,而且能够把数据写入标准输出流中,那么就能够经过Hadoop流使用任何语言编写MapReduce程序的map函数和reduce函数。
例 如:bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -mapper /usr/local/hadoop/mapper.php -reducer /usr/local/hadoop/reducer.php -input test/* -output out4
Hadoop流引入的 包:hadoop-streaming-0.20.203.0.jar,Hadoop根目录下是没有hadoop-streaming.jar的,由于 streaming是一个contrib,因此要去contrib下面找,以hadoop-0.20.2为例,它在这里:
-input:指明输入hdfs文件的路径
-output:指明输出hdfs文件的路径
-mapper:指明map函数
-reducer:指明reduce函数 php
mapper.php文件,写入以下代码: java
hello 1这段代码的大体意思是:把输入的每行文本中的单词找出来,并以” python
这样的形式输出出来。 linux
和以前写的PHP基本没有什么不一样,对吧,可能稍微让你感到陌生有两个地方: shell
第一行的 bash
告诉linux,要用#!/usr/local/php/bin/php这个程序做为如下代码的解释器。写过linux shell的人应该很熟悉这种写法了,每一个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python[php]
- #!/usr/local/php/bin/php
有了这一行,保存好这个文件之后,就能够像这样直接把mapper.php看成cat, grep同样的命令执行了:./mapper.php app