安装PIG

时间 2019-12-12

标签安装 pig 繁體版

原文原文链接

下载Pig 可以执行在Hadoop 0.20.*css

http://mirror.bit.edu.cn/apache/pig/pig-0.11.1/pig-0.11.1.tar.gzhtml

也可以依据你的Hadoop版本号选择相应的版本号下载：http://hadoop.apache.org/pig/releases.htmlnode

我当前的Hadoop 版本号是 hadoop-0.20.2 apache

tar -xvf pig-0.11.1.tar.gz分布式

为了方便，可以把Pig的程序文件夹放到命令行路径里。比方：grunt

% export PIG_INSTALL=/usr/local/hadoop/pig-0.11.1oop

% export PATH=$PATH:$PIG_INSTALL/binpost

Pig有两种模式：spa

一种是Local mode，也就是本地模式，这样的模式下Pig执行在一个JVM里，訪问的是本地的文件系统。仅仅适合于小规模数据集，一般是用来体验Pig。命令行

而且，它并没实用到Hadoop的Local runner，Pig把查询转换为物理的Plan，而后本身去执行。

在终端下输入

% pig -x local

就可以进入Local模式了。

另外一种就是Hadoop模式了，这样的模式下。Pig才真正的把查询转换为相应的MapReduce Jobs，并提交到Hadoop集群去执行。集群可以是真实的分布式也可以是伪分布式。要想Pig能认识Hadoop。你要告诉它Hadoop的版本号以及一些关键daemon的信息（也就是Namenode和Jobtracker的Address和Port）。

比方，如下这个可以赞成Pig链接到不论什么Hadoop0.20.*上：

% export PIG_HADOOP_VERSION=20

接下来，你还要指明集群的Namenode和Jobtracker的所在。有两种方法，一种就是把你Hadoop的Conf地址加入到Pig的Classpath上：

% export PIG_CLASSPATH=$HADOOP_INSTALL/conf/

另外一种就是在Pig文件夹的Conf文件夹（可能需要本身建立）里建立一个pig.properties文件，而后在里面加入集群的Namenode和Jobtracker的信息：

fs.default.name=hdfs://idc01-vm-test-124/

#依据您的Hadoop配置进行设置

mapred.job.tracker=idc01-vm-test-124:9000

接下来执行PIG

[root@idc01-vm-test-124 conf]# pig

2014-04-19 20:13:15,775 [main] INFO org.apache.pig.Main - Apache Pig version 0.10.0-cdh4.1.2 (rexported) compiled Nov 01 2012, 18:38:58

2014-04-19 20:13:15,776 [main] INFO org.apache.pig.Main - Logging error messages to: /usr/local/hadoop/pig-0.11.1/conf/pig_1397909595772.log

2014-04-19 20:13:16,009 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to hadoop file system at: file:///

2014-04-19 20:13:16,014 [main] WARN org.apache.hadoop.conf.Configuration - fs.default.name is deprecated. Instead, use fs.defaultFS

2014-04-19 20:13:16,227 [main] INFO org.apache.pig.backend.hadoop.executionengine.HExecutionEngine - Connecting to map-reduce job tracker at: localhost:9016

2014-04-19 20:13:16,229 [main] WARN org.apache.hadoop.conf.Configuration - fs.default.name is deprecated. Instead, use fs.defaultFS

grunt>