hbase 数据存储有三种跑法,跑在本地磁盘上、跑在伪分布式上、跑在彻底分布式上--------
额。。。官网的文档挺坑爹的,结合官网、百度、谷歌的各类文档看,只要理解原理,搭建也不算难(固然照的官网文档个看就比较坑爹了)
单机模式 ------->> 这个最简单,免写了,下了包直接解压配置个路径就能够启动了,zk 和 hbase 都是起在同一个 jvm 中的,数据落到本地磁盘。
伪分布式部署方式 ------->> 先部署 hdfs , 再部署 hbase ,它们的各个进程跑在不一样的 jvm 中 , hbase只是将数据落到了 hdfs 上。
彻底分布式 ------->> 彻底分布式用大白话来讲,我理解的就是个 伪分布式的 升级款,只是把伪分布式的一台服务器变成了 n 台。。。node
彻底分布式必定要部署在 物理机上web
上边蛋扯的差很少了,下面直接入正题,开始部署
下载什么版本的包本身解决,要想下载最轻松的所有安装包,直接到 cdh 上去下载,百度搜索 cdh ,你懂的、、、而后配置文件每一个版本的基本上差很少,没有太大的出入
下面是以 hadoop-2.7.2 、 hbase-1.1.2 为例vim
1、新系统的话,本身先处理一下系统,这个习惯相信全部运维同行的哥哥们都是有这习惯的。。。关闭不用的防火墙、最大文件打开数、jdk全局变量、dns、主机名解析
建议配置时用 ip 的最后用内网的域名,这样的话,开发的代码也好接入作好的 hbase,用主机名的话,开发的还得本身的 hosts ,我这里用的 内网的 dns 域名。服务器
包传到 服务器上,解压运维
hadoop-2.7.2.tar.gz tar xvf hadoop-2.7.2.tar.gz -C /home cd /home/hadoop-2.7.2 vim etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_72ssh
配置HDFS 之 core-site.xml jvm
mkdir data vim etc/hadoop/core-site.xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://pretend.hdfs.gag.cn:9000</value> <!--这里设置 hdfs 文件系统接口--> </property> <property> <name>hadoop.tmp.dir</name> <value>/home/hadoop-2.7.2/data/tmp</value> <!--这里为 hdfs 数据存储路径--> </property> </configuration>
配置HDFS 之 hdfs-site.xml分布式
vim etc/hadoop/hdfs-site.xml <configuration> <property> <name>dfs.replication</name> <value>1</value> <!--指定建立的副本数--> </property> </configuration>
配置HDFS 之 YARN, 这原配置文件里什么也没有,都是注释内容,直接更名就行ide
mv etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml vim etc/hadoop/mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> <!--使用yarn运行mapreduce程序--> </property> </configuration>
配置HDFS 之 yarn-site.xmloop
vim etc/hadoop/yarn-site.xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> <!--NodeManager上运行的附属服务。需配置成mapreduce_shuffle,才可运行MapReduce程序--> </property> </configuration>
启动 hdfs
初次启动 hdfs 先要初始化文件系统,也能够说是格式化文件系统
bin/hdfs namenode -format
格式化完毕,启动NameNod和DataNode进程
启动以前若是修改 jvm 参数的话,在 vim etc/hadoop/hadoop-env.sh 修改 HADOOP_HEAPSIZE 这一项就能够了,默认应该是 1024M
sbin/start-dfs.sh
启动之后,有这里显示有 三个配置文件,是 out 后缀的,看日志的话,看 log 后缀的,看有没有 error 级别的报错
启动YARN
sbin/start-yarn.sh
一样是去看这两个的 log 后缀的日志
这里了 hdfs 就算启动完毕了,这时再 jps 命令能够看到除 jps 进程外有 5 个
查看端口已经有这么多了, 50070 是 hdfs 的 web 端口,之后输入 ip:port 或者 域名:port 来查看 web 页面
======================================================================
以上 hdfs 启动没问题后,就能够启动 hbase 了
tar xvf hbase-1.1.2-bin.tar.gz -C /home/ cd /home/hbase-1.1.2/ vim conf/hbase-env.sh export JAVA_HOME=/usr/lib/jvm/jdk1.7.0_72
配置Hbase
mkdir data vim conf/hbase-site.xml <configuration> <property> <name>hbase.rootdir</name> <value>hdfs://pretend.hdfs.gag.cn:9000/hbase</value> <!--使用 hdfs 文件系统,端口为上面配置的 hdfs 接口--> </property> <property> <name>hbase.zookeeper.property.dataDir</name> <value>/home/hbase-1.1.2/data</value> <!--zookeeper数据存储路径,用hbase自带的zookeeper--> </property> <property> <name>hbase.cluster.distributed</name> <value>true</value> <!--设置hbase模式为集群模式--> </property> </configuration>
hbase 集群内的服务器,若是是启动彻底分布式,这里要填写hbase全部的服务器域名或者 ip 或者 主机名,顺便说一下,hbase和 hadoop 集群所有是已 ssh 远程 调用命令的方式启动其余节点的
vim conf/regionservers pretend.hbase.gag.cn
这里的话,我把内存调整了一下,由于开发那边要用,服务器是 8G 的
vim conf/hbase-env.sh export HBASE_MASTER_OPTS="$HBASE_MASTER_OPTS -XX:PermSize=512m -XX:MaxPermSize=512m" export HBASE_REGIONSERVER_OPTS="$HBASE_REGIONSERVER_OPTS -XX:PermSize=512m -XX:MaxPermSize=512m"
启动Hbase
先启动 zookeeper,若是是彻底分布式的话,全部的 hbase节点会以临时节点的方式注册在 zk 里,伪分布式也同样,只不过zk 里只有一个节点,zk 也只有一个节点
bin/hbase-daemon.sh start zookeeper 启动后查看日志 bin/hbase-daemon.sh start master 启动后查看日志 bin/hbase-daemon.sh start regionserver 启动后查看日志
此时的 jps 能够查看到除 jps 外 8 个进程
hbase 的 web 页面端口是 16010
若是要加 开机启动的话,最好加上sleep等待,我是这样加的
正常中止方式:必定要按照顺序中止中止 hbase、zookeeper、hdfs