hadoop集群加入新节点hhbase调试

时间 2019-11-10

原文原文链接

1、改动vi /etc/hosts 添加节点ip、（没个节点都要加入）
2、设置hostname
vi /etc/sysconfig/network
把hostname改成node3
验证：从新启动linux
或者：hostname 主机名(这样设置是hostname暂时有效，从新启动后失效 )
3、先设置本机的shh免password登录
操做:(1)产生密钥，运行命令ssh-keygen -t rsa,产生的密钥文件位于~/.ssh目录中
(2)运行命令cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys
验证：ssh localhost
机器之间设置ssh免password登录
主节点是master 从节点有node1 node2 node3 node4
在node1上
(1)在node1上。把node1上的公钥复制给master，运行命令ssh-copy-id -i master
(2)在node2上。把node2上的公钥复制给master。运行命令ssh-copy-id -i master
……
(3)把master上的authorized_keys拷贝到node1,node2，node3,node4运行命令
scp /root/.ssh/authorized_keys node1:/root/.ssh
scp /root/.ssh/authorized_keys node2:/root/.ssh
……
停用防火墙:service iptables stop
4、复制hadoop0上的/usr/local/jdk、/usr/local/hadoop到node一、node二、……的相应文件夹下
scp -r /usr/local/jdk1.7.0_60node1:/usr/local
scp -r /usr/local/jdk1.7.0_60node2:/usr/local
……
改动namenode的配置文件conf/slaves
scp -r /usr/local/hadoop-2.2.0 node1:/usr/local
scp -r /usr/local/hadoop-2.2.0 node2:/usr/local
……
5、复制master上的/etc/hosts下的配置到其它node1和node2 ……节点
scp master:/etc/profile node1:/etc/profile
并且还要在node一、node二、……上分别运行source /etc/profile
6、在master上运行格式化命令hadoop namenode -format
hadoop namenode -format

错误调试
WARNING: POSSIBLE DNS SPOOFING DETECTED
与SSHserver无关，仅仅需把.ssh文件夹下的文件删除就能够。
下次使用ssh时文件会重建的。
出现这问题的解决办法一般是同一主机使用了不一样的username登录。（假设多个域名和多个IP同一时候指向同一主机，ssh仍然视为不一样主机。
rm known_hosts
而后在ssh一次就行了

集群ssh配置总结
先运行ssh-keygen -t rsa，产生密钥。文件位于root/.ssh/目录中,而后运行cp ~/.ssh/id_rsa.pub ~/.ssh/authorized_keys 进行受权（事实上是将本机产生的密钥放置公钥文件里）
而后将本机的公钥文件复制给master，运行命令ssh-copy-id -i master，也就是master统一管理各个节点的公钥，而后master节点运行 scp /root/.ssh/authorized_keys node1:/root/.ssh
java
会把天天机器上的公钥都会复制给node节点，这样node节点就可以通讯了node

6、HDFS加入删除节点并进行hdfs balance linux

方式1：静态加入datanode。中止namenode方式
1.中止namenode
2.改动slaves文件，并更新到各个节点
3.启动namenode
4.运行hadoop balance命令。web
（此项为balance集群使用。假设仅仅是加入节点，则此步骤不需要）

方式2：动态加入datanode，不停namenode方式
1.改动slaves文件。加入需要添加的节点host或者ip，并将其更新到各个节点
2.在datanode中启动运行启动datanode命令。apache
命令：sh hadoop-daemon.sh start datanode
3.可以经过web界面查看节点加入状况。ssh
或使用命令：sh hadoop dfsadmin -report
4.运行hadoop balance命令。（此项为balance集群使用，假设仅仅是加入节点，则此步骤不需要）

针对第4点，start-balancer.sh可以运行-threshold參数。oop

-threshold參数是指定平衡的阈值。
-threshold的默认是10。即每个datanode节点的实际hdfs存储使用量/集群hdfs存储量

举例：
datanode hdfs使用量1.2G；
集群总hdfs存储量10T即10000G。
则t值为1.2/10000 = 0.00012；
当运行balance的-t參数小于0.00012时，集群进行balance；
命令为：start-balancer.sh -threshold 0.0001

注：
1. balance命令可以在namenode或者datanode上启动。
可以随时中止balance命令。
balance的默认带宽是1M/s。
2. slave文件是用于从新启动时使用。集群的start和stop需要读取slave文件。spa

启用datanode时仅仅要在hdfs-site中配置了namenode位置。就可以将信息push给namenode。
查看namenode的http管理界面。可查看节点加入状况。

HDFS删除节点
方式1：经过dead方式（namenode上）：
1.sh hadoop dfsadmin -refreshServiceAcl
说明：dead方式并未改动slave文件和hdfs-site文件。
因此在集群从新启动时。该节点不会被加入到namenode的管理中。
这次在namenode上进行。其它节点可另行实验。。该命令会将该节点状态置为dead。

方式2：经过decommission方式：
a) 改动hdfs-site，加入exclude字段中的排除的节点。调试

b) 运行sh hadoop dfsadmin -refreshNodes，强制刷新。
c) 查看节点状态。该节点的状态为decommission。orm

说明：decommission方式改动了hdfs-site文件。未改动slave文件。
因此集群从新启动时，该节点尽管会被启动为datanode，但是由于加入了exclude，因此namenode会将该节点置为decommission。

此时namenode不会与该节点进行hdfs相关通讯。也即exclude起到了一个防火墙的做用。
注：
1. 假设在某个节点单独中止datanode，那么在namenode的统计中仍会出现该节点的datanode信息。
此时可经过dead或者decommission（退役）方式下线机器。

7、加入节点新节点后hbase 的HRegionServer起不来或启动治好有挂掉

hbase的conf 配置文件hbase-site.xml中的

<property>
<name>hbase.zookeeper.quorum</name>
<value>node1,node2,node3,node4,node5</value>
</property>

建议位奇数个节点

regionservers

node1

node2

node3

node4

node5

建议也位奇数个

假设HRegionServer仍是启动不起来，报错例如如下：

Exception in thread "regionserver60020" java.lang.NullPointerException
at org.apache.hadoop.hbase.regionserver.HRegionServer.run(HRegionServer.java:882)
at java.lang.Thread.run(Thread.java:745)

那么就需要看看各个节点的时间是否一样

命令例如如下：

date

改动

date -s 改动的时间

也可以每个节点同步一下互联网时间；

命令例如如下：

ntpdate time-a.nist.gov

而后在又一次start-hbase.sh（ hadoop集群开启的状况下）、

OK！祝你好运!