虽然Hadoop是用java写的,可是Hadoop提供了Hadoop流,Hadoop流提供一个API, 容许用户使用任何语言编写map函数和reduce函数.
Hadoop流动关键是,它使用UNIX标准流做为程序与Hadoop之间的接口。所以,任何程序只要能够从标准输入流中读取数据,而且能够把数据写入标准输出流中,那么就能够经过Hadoop流使用任何语言编写MapReduce程序的map函数和reduce函数。
例如:bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -mapper /usr/local/hadoop/mapper.php -reducer /usr/local/hadoop/reducer.php -input test/* -output out4
Hadoop流引入的包:hadoop-streaming-0.20.203.0.jar,Hadoop根目录下是没有hadoop- streaming.jar的,由于streaming是一个contrib,因此要去contrib下面找,以hadoop-0.20.2为例,它在这 里:
-input:指明输入hdfs文件的路径
-output:指明输出hdfs文件的路径
-mapper:指明map函数
-reducer:指明reduce函数 java
mapper.php文件,写入以下代码: python
hello 1这段代码的大体意思是:把输入的每行文本中的单词找出来,并以” linux
这样的形式输出出来。 web
和以前写的PHP基本没有什么不一样,对吧,可能稍微让你感到陌生有两个地方: shell
第一行的 bash
告诉linux,要用#!/usr/local/php/bin/php这个程序做为如下代码的解释器。写过linux shell的人应该很熟悉这种写法了,每一个shell脚本的第一行都是这样: #!/bin/bash, #!/usr/bin/python
- #!/usr/local/php/bin/php
有了这一行,保存好这个文件之后,就能够像这样直接把mapper.php看成cat, grep同样的命令执行了:./mapper.php 服务器
PHP支持多种参数传入的方法,你们最熟悉的应该是从$_GET, $_POST超全局变量里面取经过Web传递的参数,次之是从$_SERVER['argv']里取经过命令行传入的参数,这里,采用的是标准输入stdin app
它的使用效果是: 函数
在linux控制台输入 ./mapper.php
mapper.php运行,控制台进入等候用户键盘输入状态
用户经过键盘输入文本
用户按下Ctrl + D终止输入,mapper.php开始执行真正的业务逻辑,并将执行结果输出
那么stdout在哪呢?print自己已经就是stdout啦,跟咱们之前写web程序和CLI脚本没有任何不一样。
建立reducer.php文件,写入以下代码:
这段代码的大意是统计每一个单词出现了多少次数,并以”
hello 2
world 1″
这样的形式输出
把文件放入 Hadoop 的 DFS 中:
bin/hadoop dfs -put test.log test执行 php 程序处理这些文本( 以Streaming方式执行PHP mapreduce程序:):
bin/hadoop jar contrib/streaming/hadoop-streaming-0.20.203.0.jar -mapper /usr/local/hadoop/mapper.php -reducer /usr/local/hadoop/reducer.php -input test/* -output out
注意:
1) input和output目录是在hdfs上的路径
2) mapper和reducer是在本地机器的路径,必定要写绝对路径,不要写相对路径,以避免到时候hadoop报错说找不到mapreduce程序
3 ) mapper.php 和 reducer.php 必须复制到全部 DataNode 服务器上的相同路径下, 全部的服务器都已经安装php.且安装路径同样.
bin/hadoop d fs -cat /tmp/out/part-00000