eclipse平台编译Hadoop源代码

1. 下载Hadoop源代码
Hadoop 各成员源代码下载地址:http://svn.apache.org/repos/asf/hadoop,请使用SVN下载,在SVN浏览器中将trunk目录下的源代码check-out 出来即可。请注意只check-out出SVN 上的trunk 目录下的内容,如:
http://svn.apache.org/repos/asf/hadoop/common/trunk
而不是http://svn.apache.org/repos/asf/hadoop/common
原因是http://svn.apache.org/repos/asf/hadoop/common 目录下包括了很多非源代码文件,很庞大,导致需要很长的check-out 时间。


2. 准备编译环境


2.1. Hadoop代码版本
本教程所采用的Hadoop 是北京时间2009-8-26 日上午下载的源代码,和hadoop-0.19.x版本的差异可能较大。
2.2. 联网
编译Hadoop 会依赖很多第三方库,但编译工具Ant 会自动从网上下载缺少的库,所以必须保证机器能够访问Internet。
2.3. java
编译Hadoop 要用JDK1.6 以上,网址:http://java.sun.com/javase/downloads/index.jsp
安装好之后,请设置好JAVA_HOME 环境变量。
2.4. Ant和Cygwin
需要使用Ant 工具来编译Hadoop,而Ant 需要使用到Cygwin 提供的一些工具,如sed等,可以从:http://ant.apache.org/ivy/download.cgi 下载Ant,从http://www.cygwin.cn/下载Cygwin(Cygwin 的安装,请参考《在Windows 上安装Hadoop 教程》一文)。安装好之后,需要将Ant 和Cygwin 的bin 目录加入到环境变量PATH 中,如下图所示:

注意:在安装Cygwin 时,建议将SVN 安装上,因为在Ant 编译过程中会通过SVN 下载
些文件,但这个不是必须的,下载不成功时,并未见出错,编译仍然可以成功。

2.5. Eclipse

Eclipse 则可以从http://www.eclipse.org/downloads/上下载。

 

3. 编译Hadoop


在这里,我们以编译Hadoop 家庭成员common 为例,对Hadoop 其它成员的编译方法是类似的。
3.1. 编译common成员
步骤1) 在Elipse 的Package 视图中单击右键,选择New->Java Project,如下图所示:

步骤2) 选择源代码目录,设置Project 名。

在上图所示的对话框中,点击Browse 按钮,选择common 源代码目录,并设置Projectname 为common。工程导入完成后,进入Eclipse 主界面,可以看到common 已经导入进来,但可以看到common 上有红叉叉,是因为Elipse 默认使用了Java Builder,而不是Ant Builder,所以下一步就是设置使用Ant Builder。
步骤3) 设置Builder 为Ant:右键common->Properties->Builders:

在上图所示的界面中,点击New 按钮,在弹出的对话框中选中Ant Builder,确定之后会弹出如下对话框:

点击Browse File System 按钮,选择common 源代码目录下的build.xml 文件,并设置Name 为common_Builder(Name 可以改成其它的,但建议使用common_Builder,因为这样名副其实),操作结果如下图所示:

除上图所示的设置外,还需要设置如下图所示的Targets,建议设置成Manual Build 编译方式,而不是Auto Build 编译方式。因为在Auto Build 模式下,任何修改都会触发编译,而Manual Build 模式下,只在需要的时候,点击编译按钮或菜单编译即可。

Hadoop 各成员都需要编译成jar,所以做如下图所示的一个修改:

确定之后,返回如下图所示的Edit Configuration 对话框:

上面完成后,回到Builder 的主对话框,再将对话框中的Java Builder 下移,并将它前面的勾去掉。
进入Eclipse 主界面,由于之前选择了Manual Build,所以需要人工方式驱动编译,编译成功后,可以看到BUILD SUCCESSFUL 字样。

  请注意:如果上图所示的菜单中的Build Automatically 被勾中,则在common 的右键菜单中可能不会出现Build 子菜单。
在编译过程中,Ant 会自动从网上下载所依赖的库。common 的编译成功结束后,可以在build 目录下找到编译后生成的文件hadoop-core-0.21.0-dev.jar。


3.2. 编译Hadoop其它成员
  hdfs、mapreduce 和hive 的编译方式同common。

 


4. FAQ


4.1. 联网
  确保可以上internet,Ant 需要自动下载很多第三方依赖库,如果不能联网,编译会复杂很多。
4.2. 编译hive
  hive 的编译相对复杂些,而且默认它会编译多个版本的hive,建立修改shims 目录下的ivy.xml 文件,去掉不必要版本的编译。
4.3. 编译生成文件位置  common 编译后生成build\hadoop-core-0.21.0-dev.jar;  hdfs 编译后生成build\hadoop-hdfs-0.21.0-dev.jar;  mapreduce 编译后生成build\hadoop-mapred-0.21.0-dev.jar;  hive 编译后生成build\service\hive_service.jar,请注意并没有直接放在build 目录下;  hbase 编译后生成build\hbase-0.21.0-dev.jar;  有时候在编译某个时出错,可先跳过,编译其它的,Refresh 之后再编译。