kafka和storm集群的环境安装

时间 2019-12-05

标签 kafka storm 集群环境安装栏目 Kafka 繁體版

原文原文链接

前言

storm和kafka集群安装是没有必然联系的，我将这两个写在一块儿，是由于他们都是由zookeeper进行管理的，也都依赖于JDK的环境，为了避免重复再写一遍配置，因此我将这两个写在一块儿。若只需一个，只需挑选本身选择的阅读便可。html

这二者的依赖以下:java

Storm集群：JDK1.8 , Zookeeper3.4，Storm1.1.1；
Kafa集群 : JDK1.8 ，Zookeeper3.4 ，Kafka2.12；

说明: Storm1.0 和Kafka2.0对JDK要求是1.7以上，Zookeeper3.0以上。node

下载地址:
Zookeeper：https://zookeeper.apache.org/releases.html#download
Storm: http://storm.apache.org/downloads.html
Kafka: http://kafka.apache.org/downloadslinux

JDK安装

每台机器都要安装JDK！！！
说明: 通常CentOS自带了openjdk，可是咱们这里使用的是oracle的JDK。因此要写卸载openjdk，而后再安装在oracle下载好的JDK。若是已经卸载，能够跳过此步骤。
首先输入 java -version
查看是否安装了JDK，若是安装了，但版本不适合的话，就卸载
web

输入
rpm -qa | grep java
查看信息

而后输入:
rpm -e --nodeps “你要卸载JDK的信息”
如: rpm -e --nodeps java-1.7.0-openjdk-1.7.0.99-2.6.5.1.el6.x86_64
shell

确认没有了以后，解压下载下来的JDKapache

tar  -xvf   jdk-8u144-linux-x64.tar.gz

移动到opt/java文件夹中，没有就新建，而后将文件夹重命名为jdk1.8。vim

mv  jdk1.8.0_144 /opt/java
mv  jdk1.8.0_144  jdk1.8

而后编辑 profile 文件，添加以下配置
输入:浏览器

vim /etc/profile

添加:服务器

export JAVA_HOME=/opt/java/jdk1.8
export JRE_HOME=/opt/java/jdk1.8/jre
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JRE_HOME/lib
export PATH=.:${JAVA_HOME}/bin:$PATH

添加成功以后，输入

source /etc/profile
java  -version

查看是否配置成功

Zookeeper 环境安装

1，文件准备

将下载下来的Zookeeper 的配置文件进行解压
在linux上输入:

tar  -xvf   zookeeper-3.4.10.tar.gz

而后移动到/opt/zookeeper里面，没有就新建，而后将文件夹重命名为zookeeper3.4
输入

mv  zookeeper-3.4.10  /opt/zookeeper
mv  zookeeper-3.4.10  zookeeper3.4

2，环境配置

编辑 /etc/profile 文件
输入:

export  ZK_HOME=/opt/zookeeper/zookeeper3.4 
export PATH=.:${JAVA_HOME}/bin:${ZK_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效

3，修改配置文件

3.3.1 建立文件和目录

在集群的服务器上都建立这些目录

mkdir   /opt/zookeeper/data  
mkdir   /opt/zookeeper/dataLog

而且在/opt/zookeeper/data目录下建立myid文件
输入:

touch  myid

建立成功以后，更改myid文件。
我这边为了方便，将master、slave一、slave2的myid文件内容改成1,2,3

3.3.2 新建zoo.cfg

切换到/opt/zookeeper/zookeeper3.4/conf 目录下
若是没有 zoo.cfg 该文件，就复制zoo_sample.cfg文件并重命名为zoo.cfg。
修改这个新建的zoo.cfg文件

dataDir=/opt/zookeeper/data
dataLogDir=/opt/zookeeper/dataLog
server.1=master:2888:3888
server.2=slave1:2888:3888
server.3=slave2:2888:3888

说明：client port，顾名思义，就是客户端链接zookeeper服务的端口。这是一个TCP port。dataLogDir里是放到的顺序日志(WAL)。而dataDir里放的是内存数据结构的snapshot，便于快速恢复。为了达到性能最大化，通常建议把dataDir和dataLogDir分到不一样的磁盘上，这样就能够充分利用磁盘顺序写的特性。dataDir和dataLogDir须要本身建立，目录能够本身制定，对应便可。server.1中的这个1须要和master这个机器上的dataDir目录中的myid文件中的数值对应。server.2中的这个2须要和slave1这个机器上的dataDir目录中的myid文件中的数值对应。server.3中的这个3须要和slave2这个机器上的dataDir目录中的myid文件中的数值对应。固然，数值你能够随便用，只要对应便可。2888和3888的端口号也能够随便用，由于在不一样机器上，用成同样也无所谓。
1.tickTime：CS通讯心跳数
Zookeeper 服务器之间或客户端与服务器之间维持心跳的时间间隔，也就是每一个 tickTime 时间就会发送一个心跳。tickTime以毫秒为单位。
tickTime=2000
2.initLimit：LF初始通讯时限
集群中的follower服务器(F)与leader服务器(L)之间初始链接时能容忍的最多心跳数（tickTime的数量）。
initLimit=10
3.syncLimit：LF同步通讯时限
集群中的follower服务器与leader服务器之间请求和应答之间能容忍的最多心跳数（tickTime的数量）。
syncLimit=5

依旧将zookeeper传输到其余的机器上，记得更改 /opt/zookeeper/data 下的myid，这个不能一致。
输入:

scp -r /opt/zookeeper root@slave1:/opt
scp -r /opt/zookeeper root@slave2:/opt

4，启动zookeeper

由于zookeeper是选举制，它的主从关系并非像hadoop那样指定的，具体能够看官方的文档说明。
成功配置zookeeper以后，在每台机器上启动zookeeper。
切换到zookeeper目录下

cd /opt/zookeeper/zookeeper3.4/bin

输入:

zkServer.sh start

成功启动以后
查看状态输入:

zkServer.sh status

能够查看各个机器上zookeeper的leader和follower

Storm 环境安装

1，文件准备

将下载下来的storm的配置文件进行解压
在linux上输入:

tar  -xvf   apache-storm-1.1.1.tar.gz

而后移动到/opt/storm里面，没有就新建，而后将文件夹重命名为storm1.1
输入

mv  apache-storm-1.1.1  /opt/storm
 mv  apache-storm-1.1.1  storm1.1

2，环境配置

编辑 /etc/profile 文件
添加：

export STORM_HOME=/opt/storm/storm1.1
export PATH=.:${JAVA_HOME}/bin:${ZK_HOME}/bin:${STORM_HOME}/bin:$PATH

输入 storm version 查看版本信息

3，修改配置文件

编辑 storm/conf 的 storm.yarm。

进行以下编辑:
输入:
vim storm.yarm

storm.zookeeper.servers:
     - "master"
     - "slave1"
     - "slave2"

storm.local.dir: "/root/storm"

nimbus.seeds: ["master"]

supervisor.slots.ports:
    - 6700
    - 6701
    - 6702
    - 6703

说明:

storm.zookeeper.servers是指定zookeeper的服务地址。
由于storm的存储信息在zookeeper上，因此要配置zookeeper的服务地址。若是zookeeper是单机就只用指定一个！
storm.local.dir 表示存储目录。
Nimbus和Supervisor守护进程须要在本地磁盘上存储一个目录来存储少许的状态（好比jar，confs等等）。能够在每台机器建立，并给于权限。
3.nimbus.seeds 表示候选的主机。
worker须要知道那一台机器是主机候选(zookeeper集群是选举制)，从而能够下载 topology jars 和confs。
4.supervisor.slots.ports 表示worker 端口。
对于每个supervisor机器，咱们能够经过这项来配置运行多少worker在这台机器上。每个worker使用一个单独的port来接受消息，这个端口一样定义了那些端口是开放使用的。若是你在这里定义了5个端口，就意味着这个supervisor节点上最多能够运行5个worker。若是定义3个端口，则意味着最多能够运行3个worker。在默认状况下(即配置在defaults.yaml中)，会有有四个workers运行在 6700, 6701, 6702, and 6703端口。
supervisor并不会在启动时就当即启动这四个worker。而是接受到分配的任务时，才会启动，具体启动几个worker也要根据咱们Topology在这个supervisor须要几个worker来肯定。若是指定Topology只会由一个worker执行，那么supervisor就启动一个worker，并不会启动全部。

注: 这些配置前面不要有空格！！！，否则会报错。这里使用的是主机名(作了映射)，也可使用IP。实际的以本身的为准。

可使用scp命令或者ftp软件将storm复制到其余机器上

成功配置以后，而后就能够启动Storm了，不过要确保JDK、Zookeeper已经正确安装，而且Zookeeper已经成功启动。

4，启动Storm

切换到 storm/bin 目录下
在主节点(master)启动输入：

storm nimbus >/dev/null 2>&1 &

访问web界面(master)输入:

storm ui

从节点(slave1，slave2)输入:

storm supervisor >/dev/null 2>&1 &

在浏览器界面输入: 8080端口
成功打开该界面，表示环境配置成功:

kafka的环境安装

1，文件准备

将下载下来的Kafka的配置文件进行解压
在linux上输入:

tar  -xvf   kafka_2.12-1.0.0.tgz

而后移动到/opt/kafka里面，没有就新建，而后将文件夹重命名为kafka2.12
输入

mv  kafka_2.12-1.0.0  /opt/kafka
 mv  kafka_2.12-1.0.0  kafka2.12

2，环境配置

编辑 /etc/profile 文件
输入:

export  KAFKA_HOME=/opt/kafka/kafka2.12 
export PATH=.:${JAVA_HOME}/bin:${KAFKA_HOME}/bin:${ZK_HOME}/bin:$PATH

输入:

source  /etc/profile

使配置生效

3，修改配置文件

注:其实要说的话，若是是单机的话，kafka的配置文件能够不用修改，直接到bin目录下启动就能够了。可是咱们这里是集群，因此稍微改下就能够了。

切换到kafka/config 目录下
编辑server.properties 文件
须要更改的是Zookeeper的地址:
找到Zookeeper的配置，指定Zookeeper集群的地址，设置以下修改就能够了

zookeeper.connect=master:2181,slave1:2181,slave2:2181
zookeeper.connection.timeout.ms=6000

其它能够选择更改的有

1 ，num.partitions 表示指定的分区，默认为1
2，log.dirs kafka的日志路径，这个按照我的需求更改就行
3, broker.id:非负整数，用于惟一标识broker，每台不同

...
注:还有其它的配置，能够查看官方文档，若是没有特别要求，使用默认的就能够了。

配置好以后，记得使用scp 命令传输到其它的集群上，记得更改server.properties 文件！

4，启动kafka

集群每台集群都须要操做！

切换到kafka/bin 目录下
输入:

kafka-server-start.sh

而后输入jps名称查看是否成功启动:

成功启动以后，能够进行简单的测试下
首先建立个topic
输入:

kafka-topics.sh --zookeeper master:2181 --create --topic t_test --partitions 5  --replication-factor 2

说明: 这里是建立了一个名为 t_test 的topic，而且指定了5个分区，每一个分区指定了2个副本数。若是不指定分区，默认的分区就是配置文件配置的。

而后进行生产数据
输入:

kafka-console-producer.sh --broker-list master:9092 --topic t_test

可使用进行Ctrl+D 退出

而后咱们再打开一个xshell窗口
进行消费
输入:

kafka-console-consumer.sh  --zookeeper master:2181  --topic t_test --from-beginning

可使用进行Ctrl+C 退出

能够看到数据已经正常消费了。

5，kafka的一些经常使用命令

1.启动和关闭kafka

bin/kafka-server-start.sh config/server.properties >>/dev/null 2>&1 &
bin/kafka-server-stop.sh

2.查看kafka集群中的消息队列和具体队列
查看集群全部的topic

kafka-topics.sh --zookeeper master:2181,slave1:2181,slave2:2181 --list

查看一个topic的信息

kafka-topics.sh --zookeeper master:2181 --describe --topic t_test

3.建立Topic

kafka-topics.sh --zookeeper master:2181 --create --topic t_test --partitions 5  --replication-factor 2

4.生产数据和消费数据

kafka-console-producer.sh --broker-list master:9092 --topic t_test

Ctrl+D 退出

kafka-console-consumer.sh  --zookeeper master:2181  --topic t_test --from-beginning

Ctrl+C 退出

5.kafka的删除命令

kafka-topics.sh --delete --zookeeper master:2181 --topic t_test

6,添加分区

kafka-topics.sh --alter --topict_test --zookeeper master:2181 --partitions 10

其它

Storm环境搭建参考官方文档:
http://storm.apache.org/releases/1.1.1/Setting-up-a-Storm-cluster.html

Kafka环境搭建参考官方文档:
http://kafka.apache.org/quickstart

到此，本文结束，谢谢阅读！