Kafka —— 基于 ZooKeeper 搭建 Kafka 高可用集群

时间 2019-12-05

标签 kafka 基于 zookeeper 搭建可用集群栏目 Kafka 繁體版

原文原文链接

1、Zookeeper集群搭建

为保证集群高可用，Zookeeper集群的节点数最好是奇数，最少有三个节点，因此这里搭建一个三个节点的集群。git

1.1 下载 & 解压

下载对应版本Zookeeper，这里我下载的版本3.4.14。官方下载地址：https://archive.apache.org/dist/zookeeper/程序员

# 下载
wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz
# 解压
tar -zxvf zookeeper-3.4.14.tar.gz

1.2 修改配置

拷贝三份zookeeper安装包。分别进入安装目录的conf目录，拷贝配置样本zoo_sample.cfg为zoo.cfg并进行修改，修改后三份配置文件内容分别以下：github

zookeeper01配置：web

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/local/zookeeper-cluster/data/01
dataLogDir=/usr/local/zookeeper-cluster/log/01
clientPort=2181

# server.1 这个1是服务器的标识，能够是任意有效数字，标识这是第几个服务器节点，这个标识要写到dataDir目录下面myid文件里
# 指名集群间通信端口和选举端口
server.1=127.0.0.1:2287:3387
server.2=127.0.0.1:2288:3388
server.3=127.0.0.1:2289:3389

若是是多台服务器，则集群中每一个节点通信端口和选举端口可相同，IP地址修改成每一个节点所在主机IP便可。shell

zookeeper02配置，与zookeeper01相比，只有dataLogDir和dataLogDir不一样：apache

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/local/zookeeper-cluster/data/02
dataLogDir=/usr/local/zookeeper-cluster/log/02
clientPort=2182

server.1=127.0.0.1:2287:3387
server.2=127.0.0.1:2288:3388
server.3=127.0.0.1:2289:3389

zookeeper03配置，与zookeeper01，02相比，也只有dataLogDir和dataLogDir不一样：bootstrap

tickTime=2000
initLimit=10
syncLimit=5
dataDir=/usr/local/zookeeper-cluster/data/03
dataLogDir=/usr/local/zookeeper-cluster/log/03
clientPort=2183

server.1=127.0.0.1:2287:3387
server.2=127.0.0.1:2288:3388
server.3=127.0.0.1:2289:3389

配置参数说明：服务器

tickTime：用于计算的基础时间单元。好比session超时：N*tickTime；

initLimit：用于集群，容许从节点链接并同步到 master节点的初始化链接时间，以tickTime的倍数来表示；

syncLimit：用于集群， master主节点与从节点之间发送消息，请求和应答时间长度（心跳机制）；

dataDir：数据存储位置；

dataLogDir：日志目录；

clientPort：用于客户端链接的端口，默认2181

1.3 标识节点

分别在三个节点的数据存储目录下新建myid文件,并写入对应的节点标识。Zookeeper集群经过myid文件识别集群节点，并经过上文配置的节点通讯端口和选举端口来进行节点通讯，选举出leader节点。session

建立存储目录：app

# dataDir
mkdir -vp  /usr/local/zookeeper-cluster/data/01
# dataDir
mkdir -vp  /usr/local/zookeeper-cluster/data/02
# dataDir
mkdir -vp  /usr/local/zookeeper-cluster/data/03

建立并写入节点标识到myid文件：

#server1
echo "1" > /usr/local/zookeeper-cluster/data/01/myid
#server2
echo "2" > /usr/local/zookeeper-cluster/data/02/myid
#server3
echo "3" > /usr/local/zookeeper-cluster/data/03/myid

1.4 启动集群

分别启动三个节点：

# 启动节点1
/usr/app/zookeeper-cluster/zookeeper01/bin/zkServer.sh start
# 启动节点2
/usr/app/zookeeper-cluster/zookeeper02/bin/zkServer.sh start
# 启动节点3
/usr/app/zookeeper-cluster/zookeeper03/bin/zkServer.sh start

1.5 集群验证

使用jps查看进程，而且使用zkServer.sh status查看集群各个节点状态。如图三个节点进程均启动成功，而且两个节点为follower节点，一个节点为leader节点。

2、Kafka集群搭建

2.1 下载解压

Kafka安装包官方下载地址：http://kafka.apache.org/downloads ，本用例下载的版本为2.2.0，下载命令：

# 下载
wget https://www-eu.apache.org/dist/kafka/2.2.0/kafka_2.12-2.2.0.tgz
# 解压
tar -xzf kafka_2.12-2.2.0.tgz

这里j解释一下kafka安装包的命名规则：以kafka_2.12-2.2.0.tgz为例，前面的2.12表明Scala的版本号（Kafka采用Scala语言进行开发），后面的2.2.0则表明Kafka的版本号。

2.2 拷贝配置文件

进入解压目录的config目录下，拷贝三份配置文件：

# cp server.properties server-1.properties
# cp server.properties server-2.properties
# cp server.properties server-3.properties

2.3 修改配置

分别修改三份配置文件中的部分配置，以下：

server-1.properties：

# The id of the broker. 集群中每一个节点的惟一标识
broker.id=0
# 监听地址
listeners=PLAINTEXT://hadoop001:9092
# 数据的存储位置
log.dirs=/usr/local/kafka-logs/00
# Zookeeper链接地址
zookeeper.connect=hadoop001:2181,hadoop001:2182,hadoop001:2183

server-2.properties：

broker.id=1
listeners=PLAINTEXT://hadoop001:9093
log.dirs=/usr/local/kafka-logs/01
zookeeper.connect=hadoop001:2181,hadoop001:2182,hadoop001:2183

server-3.properties：

broker.id=2
listeners=PLAINTEXT://hadoop001:9094
log.dirs=/usr/local/kafka-logs/02
zookeeper.connect=hadoop001:2181,hadoop001:2182,hadoop001:2183

这里须要说明的是log.dirs指的是数据日志的存储位置，确切的说，就是分区数据的存储位置，而不是程序运行日志的位置。程序运行日志的位置是经过同一目录下的log4j.properties进行配置的。

2.4 启动集群

分别指定不一样配置文件，启动三个Kafka节点。启动后可使用jps查看进程，此时应该有三个zookeeper进程和三个kafka进程。

bin/kafka-server-start.sh config/server-1.properties
bin/kafka-server-start.sh config/server-2.properties
bin/kafka-server-start.sh config/server-3.properties

2.5 建立测试主题

建立测试主题：

bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 \
					--replication-factor 3 \
					--partitions 1 --topic my-replicated-topic

建立后可使用如下命令查看建立的主题信息：

bin/kafka-topics.sh --describe --bootstrap-server hadoop001:9092 --topic my-replicated-topic

能够看到分区0的有0,1,2三个副本，且三个副本都是可用副本，都在ISR(in-sync Replica 同步副本)列表中，其中1为首领副本，此时表明集群已经搭建成功。

更多大数据系列文章能够参见我的 GitHub 开源项目：程序员大数据入门指南