Ubuntu10.04LTS配置Hadoop1.0.1+HBase 0.92.0

(关于Hadoop的单机和伪分布式配置参见:http://my.oschina.net/unclegeek/blog/40042)当写这篇文章的时候,最新版的hadoop是1.0.1版本,支持了许多新的特性,使得hbase持久化不易丢失数据。所以改用新的版本做说明:java

1.配置前重要的系统设置:node

    1)像Hbase这样的分布式的数据库,在启动的时候会在系统里打开不少的文件,而普通的系统对打开文件数目的限制比较小,所以若是不改变系统设置,就会引发JAVA虚拟机的IOException。shell

   在/etc/security/limits.conf增长一行:数据库

hadoop  -       nofile  32768

将hadoop替换为你要运行hadoop的用户名字,若是你有多个用户须要运行hadoop,那么就写多行。

   2)设置系统容许运行的最大进程数目:服务器

在相同的文件中加入:session

hadoop soft/hard nproc 32000

一样将hadoop替换为你要使用的用户名称。

  3)最后在/etc/pam.d/common-session的最后一行加入:app

session required  pam_limits.so

不然以上的配置不会生效。

2.配置hadoop(先只在master上配置)dom

  1)配置conf/hadoop-env.shssh

       至少应该在此文件中指定JAVA_HOME=你系统中jdk的安装路径分布式

  2)配置Hadoop守护进程:(假设Hadoop安装目录是opt/hadoop)

<!--conf/core-site.xml增长以下内容:-->
    <property>
        <name>fs.default.name</name>
	<!--注意:master是集群机器配置/etc/hosts文件中指定的特定IP对应的机器名字-->
        <value>hdfs://master:54310/</value>
    </property>

<!--conf/hdfs-site.xml增长以下内容:-->
    <property>
	<name>dfs.name.dir</name>
	<value>/opt/hadoop/name/</value> 
	<description>
	   Path on the local filesystem where the NameNode stores the namespace and transactions logs persistently.
        </description>
    </property>
    <property>
	<name>dfs.data.dir</name>
	<value>/opt/hadoop/data/</value> 
	<description>
	   Comma separated list of paths on the local filesystem of a DataNode where it should store its blocks.
        </description>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>2</value>
    </property>

<!--conf/mapred-site.xml增长以下内容:-->
    <property>
	 <name>mapred.job.tracker</name>
	 <value>hdfs://master:54311/</value><!--这里的master是在/etc/hosts文件中指定的主机名-->
	 <description>
	      Host or IP and port of JobTracker.
	 </description>
    </property>
    <property>
	   <name>mapred.tasktracker.map.tasks.maximum</name>
	   <value>4</value>
	   <description>
		The maximum number of MapReduce tasks, which are run simultaneously on a given TaskTracker, individually.
	   </description>
    </property>
    <property>
	   <name>mapred.tasktracker.reduce.tasks.maximum</name>
	   <value>2</value>
	   <description>
		The maximum number of MapReduce tasks, which are run simultaneously on a given TaskTracker, individually.
	   </description>
    </property>

  3)配置conf/slaves

#在此文件中列出全部的slave主机,用主机名或者IP地址均可以,例若有slave1,slave2两个主机

slave1  #这样定义,须要在所在主机的/etc/hosts 文件中增长一行   此机器ip地址  slave1    下同

slave2

  4)配置 conf/masters

#此文件列出全部的master主机,例如只有

master

4.配置HBase

1)使整个HDFS系统支持durable sync功能,HBase再也不丢失数据,这个功能只有Hadoop versions 0.20.205.x 和之后的1.0.x支持这个配置,须要在clientside:hbase-site.xml 和 serverside的hdfs-site.xml中加入

<property>
    <name>dfs.support.append</name>
    <value>true</value>
  </property>

  2)配置HDFS一次最多能够提供的文件数上限:hadoop/conf/hdfs-site.xml

<property>
        <name>dfs.datanode.max.xcievers</name>
        <value>4096</value>
    </property>

    不然可能获得错误提示:10/12/08 20:10:31 INFO hdfs.DFSClient: Could not obtain block blk_XXXXXXXXXXXXXXXXXXXXXX_YYYYYYYY from any node: java.io.IOException: No live nodes contain current block. Will get new block locations from namenode and retry...

2.配置hbase

  1)在全分布式模式下,不仅有一个主机。在hbase-site.xml中,设置hbase.cluster.distributed为true,并经过设置hbase.rootdir指名HDFS NameNode和它在HDFS的位置,这里也是HBase写入数据的位置。

<configuration>
    <property>
        <name>hbase.rootdir</name>
        <value>hdfs://master:54310/hbase</value>
        <description>The directory shared by RegionServers.</description>
    </property>

    <property>
        <name>hbase.cluster.distributed</name>
        <value>true</value>
        <description>The mode the cluster will be in. Possible values are
            false: standalone and pseudo-distributed setups with managed Zookeeper
            true: fully-distributed with unmanaged Zookeeper Quorum (see hbase-env.sh)
        </description>
    </property>

    <property>
        <name>dfs.replication</name>
        <value>2</value>
        <description>The replication count for HLog and HFile storage. Should not be greater than HDFS datanode count.</description>
    </property>

  2)HDFS client配置

值得注意的是,若是你已经在hadoop集群上进行了HDFS客户端配置,即配置你想要使用的HDFS客户端,而不是服务器端配置:HBase的不会看到这种配置,除非你作如下事情之一:

  (1)让hbase-env.sh中,的环境变量HBASE_CLASSPATH=你的HADOOP_CONF_DIR 

  (2)添加 hdfs-site.xml (或hadoop-site.xml) 的副本,或更好的方法:在${HBASE_HOME}/conf下添加它们的symlinks 

  (3)若是添加的HDFS client规模不大,能够将他们配置到hbase-site.xml中。

在这里采用第二种方式,在hbase的conf目录中,用ln -s创建hadoop/conf/hdfs-site.xml的软链接。

  3)配置zookeeper

 在conf/hbase-env.sh 中的HBASE_MANAGES_ZK变量默认是true, 告诉HBase 是否 将ZooKeeper 配合servers 做为HBase启动的一部分。通常说来最好让集群中机器的个数控制在奇数个,缘由以下:好比一个4个节点的集群中,须要启动3个zookeeper节点,只支持一个节点宕机的容错,5个节点也须要启动3个zookeeper节点,但支持两个节点宕机的容错。

例如:设置管理3个节点(master,slave1,slave2)的zookeeper,绑定端口2222,肯定在conf/hbase-env.sh中的HBASE_MANAGE_ZK被注释掉(默认是true)或者设置为true,接下来配置conf/hbase-site.xml,设置hbase.zookeeper.property.clientPort 和 hbase.zookeeper.quorum。你必须设置hbase.zookeeper.property.dataDir到另外一个目录,由于默认的/tmp在系统重启的时候会被清除。在下面的例子中,咱们让zookeeper将数据保存到/opt/hbase/zookeeper中。

<property>
        <name>hbase.zookeeper.property.clientPort</name>
        <value>2222</value>
        <description>Property from ZooKeeper's config zoo.cfg.
        The port at which the clients will connect.
        </description>
    </property>

    <property>
      <name>hbase.zookeeper.quorum</name>
      <value>master,slave1,slave2</value>
      <description>Comma separated list of servers in the ZooKeeper Quorum.
      For example, "host1.mydomain.com,host2.mydomain.com,host3.mydomain.com".
      By default this is set to localhost for local and pseudo-distributed modes
      of operation. For a fully-distributed setup, this should be set to a full
      list of ZooKeeper quorum servers. If HBASE_MANAGES_ZK is set in hbase-env.sh
      this is the list of servers which we will start/stop ZooKeeper on.
      </description>
    </property>

    <property>
      <name>hbase.zookeeper.property.dataDir</name>
      <value>/opt/hbase/zookeeper</value>
      <description>Property from ZooKeeper's config zoo.cfg.
      The directory where the snapshot is stored.
      </description>
    </property>

 4)配置conf/regionservers

把俩个slave主机看成regionservers,能够在文件中加入:

slave1
slave2

 5)在conf/hbase-env.sh中指定java的安装路径

到此为止,主要的配置结束了,如今你须要保证master主机能够无密码访问两个slave主机:

ssh-keygen -t rsa
#而后一路回车
ssh-copy-id -i ~/.ssh/id_rsa.pub user@slave1
ssh-copy-id -i ~/.ssh/id_rsa.pub user@slave2
#分别将ssh的公钥加入到两个slave主机

而后用scp 命令将配置好的两个文件夹传输到slave主机上的相同路径下。

 6)格式化namenode

hadoop/bin/hadoop namenode -format

 7)启动hadoop 

hadoop/bin/start-all.sh

8)启动hbase

hbase/bin/start-hbase.sh

9)若是HMaster运行不正常,或出现有关于HDFS的异常,你可能须要关闭master的防火墙。

sudo ufw disable
-----------------------------配置完成----------------------------------
相关文章
相关标签/搜索