为保证集群高可用,Zookeeper集群的节点数最好是奇数,最少有三个节点,因此这里搭建一个三个节点的集群。git
下载对应版本Zookeeper,这里我下载的版本3.4.14
。官方下载地址:https://archive.apache.org/dist/zookeeper/程序员
# 下载 wget https://archive.apache.org/dist/zookeeper/zookeeper-3.4.14/zookeeper-3.4.14.tar.gz # 解压 tar -zxvf zookeeper-3.4.14.tar.gz
拷贝三份zookeeper安装包。分别进入安装目录的conf
目录,拷贝配置样本zoo_sample.cfg
为zoo.cfg
并进行修改,修改后三份配置文件内容分别以下:github
zookeeper01配置:web
tickTime=2000 initLimit=10 syncLimit=5 dataDir=/usr/local/zookeeper-cluster/data/01 dataLogDir=/usr/local/zookeeper-cluster/log/01 clientPort=2181 # server.1 这个1是服务器的标识,能够是任意有效数字,标识这是第几个服务器节点,这个标识要写到dataDir目录下面myid文件里 # 指名集群间通信端口和选举端口 server.1=127.0.0.1:2287:3387 server.2=127.0.0.1:2288:3388 server.3=127.0.0.1:2289:3389
若是是多台服务器,则集群中每一个节点通信端口和选举端口可相同,IP地址修改成每一个节点所在主机IP便可。shell
zookeeper02配置,与zookeeper01相比,只有dataLogDir
和dataLogDir
不一样:apache
tickTime=2000 initLimit=10 syncLimit=5 dataDir=/usr/local/zookeeper-cluster/data/02 dataLogDir=/usr/local/zookeeper-cluster/log/02 clientPort=2182 server.1=127.0.0.1:2287:3387 server.2=127.0.0.1:2288:3388 server.3=127.0.0.1:2289:3389
zookeeper03配置,与zookeeper01,02相比,也只有dataLogDir
和dataLogDir
不一样:bootstrap
tickTime=2000 initLimit=10 syncLimit=5 dataDir=/usr/local/zookeeper-cluster/data/03 dataLogDir=/usr/local/zookeeper-cluster/log/03 clientPort=2183 server.1=127.0.0.1:2287:3387 server.2=127.0.0.1:2288:3388 server.3=127.0.0.1:2289:3389
配置参数说明:服务器
- tickTime:用于计算的基础时间单元。好比session超时:N*tickTime;
- initLimit:用于集群,容许从节点链接并同步到 master节点的初始化链接时间,以tickTime的倍数来表示;
- syncLimit:用于集群, master主节点与从节点之间发送消息,请求和应答时间长度(心跳机制);
- dataDir:数据存储位置;
- dataLogDir:日志目录;
- clientPort:用于客户端链接的端口,默认2181
分别在三个节点的数据存储目录下新建myid
文件,并写入对应的节点标识。Zookeeper集群经过myid
文件识别集群节点,并经过上文配置的节点通讯端口和选举端口来进行节点通讯,选举出leader节点。session
建立存储目录:app
# dataDir mkdir -vp /usr/local/zookeeper-cluster/data/01 # dataDir mkdir -vp /usr/local/zookeeper-cluster/data/02 # dataDir mkdir -vp /usr/local/zookeeper-cluster/data/03
建立并写入节点标识到myid
文件:
#server1 echo "1" > /usr/local/zookeeper-cluster/data/01/myid #server2 echo "2" > /usr/local/zookeeper-cluster/data/02/myid #server3 echo "3" > /usr/local/zookeeper-cluster/data/03/myid
分别启动三个节点:
# 启动节点1 /usr/app/zookeeper-cluster/zookeeper01/bin/zkServer.sh start # 启动节点2 /usr/app/zookeeper-cluster/zookeeper02/bin/zkServer.sh start # 启动节点3 /usr/app/zookeeper-cluster/zookeeper03/bin/zkServer.sh start
使用jps查看进程,而且使用zkServer.sh status
查看集群各个节点状态。如图三个节点进程均启动成功,而且两个节点为follower节点,一个节点为leader节点。
Kafka安装包官方下载地址:http://kafka.apache.org/downloads ,本用例下载的版本为2.2.0
,下载命令:
# 下载 wget https://www-eu.apache.org/dist/kafka/2.2.0/kafka_2.12-2.2.0.tgz # 解压 tar -xzf kafka_2.12-2.2.0.tgz
这里j解释一下kafka安装包的命名规则:以
kafka_2.12-2.2.0.tgz
为例,前面的2.12表明Scala的版本号(Kafka采用Scala语言进行开发),后面的2.2.0则表明Kafka的版本号。
进入解压目录的config
目录下 ,拷贝三份配置文件:
# cp server.properties server-1.properties # cp server.properties server-2.properties # cp server.properties server-3.properties
分别修改三份配置文件中的部分配置,以下:
server-1.properties:
# The id of the broker. 集群中每一个节点的惟一标识 broker.id=0 # 监听地址 listeners=PLAINTEXT://hadoop001:9092 # 数据的存储位置 log.dirs=/usr/local/kafka-logs/00 # Zookeeper链接地址 zookeeper.connect=hadoop001:2181,hadoop001:2182,hadoop001:2183
server-2.properties:
broker.id=1 listeners=PLAINTEXT://hadoop001:9093 log.dirs=/usr/local/kafka-logs/01 zookeeper.connect=hadoop001:2181,hadoop001:2182,hadoop001:2183
server-3.properties:
broker.id=2 listeners=PLAINTEXT://hadoop001:9094 log.dirs=/usr/local/kafka-logs/02 zookeeper.connect=hadoop001:2181,hadoop001:2182,hadoop001:2183
这里须要说明的是log.dirs
指的是数据日志的存储位置,确切的说,就是分区数据的存储位置,而不是程序运行日志的位置。程序运行日志的位置是经过同一目录下的log4j.properties
进行配置的。
分别指定不一样配置文件,启动三个Kafka节点。启动后可使用jps查看进程,此时应该有三个zookeeper进程和三个kafka进程。
bin/kafka-server-start.sh config/server-1.properties bin/kafka-server-start.sh config/server-2.properties bin/kafka-server-start.sh config/server-3.properties
建立测试主题:
bin/kafka-topics.sh --create --bootstrap-server hadoop001:9092 \ --replication-factor 3 \ --partitions 1 --topic my-replicated-topic
建立后可使用如下命令查看建立的主题信息:
bin/kafka-topics.sh --describe --bootstrap-server hadoop001:9092 --topic my-replicated-topic
能够看到分区0的有0,1,2三个副本,且三个副本都是可用副本,都在ISR(in-sync Replica 同步副本)列表中,其中1为首领副本,此时表明集群已经搭建成功。
更多大数据系列文章能够参见我的 GitHub 开源项目: 程序员大数据入门指南