redis集群搭建与管理

时间 2019-11-11

标签 redis 集群搭建管理栏目 Redis 繁體版

原文原文链接

集群简介：

Redis 集群是一个能够在多个 Redis 节点之间进行数据共享的设施（installation）。

Redis 集群不支持那些须要同时处理多个键的 Redis 命令，由于执行这些命令须要在多个 Redis 节点之间移动数据，而且在高负载的状况下，这些命令将下降 Redis 集群的性能，并致使不可预测的行为。

Redis 集群经过分区（partition）来提供必定程度的可用性（availability）：即便集群中有一部分节点失效或者没法进行通信，集群也能够继续处理命令请求。

Redis 集群提供了如下两个好处：

将数据自动切分（split）到多个节点的能力。

当集群中的一部分节点失效或者没法进行通信时，仍然能够继续处理命令请求的能力。

redis集群数据共享：

Redis 集群使用数据分片（sharding）而非一致性哈希（consistency hashing）来实现：一个 Redis 集群包含 16384 个哈希槽（hash slot），数据库中的每一个键都属于这 16384 个哈希槽的其中一个，集群使用公式 CRC16(key) % 16384 来计算键 key 属于哪一个槽，其中 CRC16(key) 语句用于计算键 key 的 CRC16 校验和。

集群中的每一个节点负责处理一部分哈希槽。举个例子，一个集群能够有三个哈希槽，其中：

节点 A 负责处理 0 号至 5500 号哈希槽。

节点 B 负责处理 5501 号至 11000 号哈希槽。

节点 C 负责处理 11001 号至 16384 号哈希槽。

这种将哈希槽分布到不一样节点的作法使得用户能够很容易地向集群中添加或者删除节点。好比说：

若是用户将新节点 D 添加到集群中，那么集群只须要将节点 A 、B 、 C 中的某些槽移动到节点 D 就能够了。

与此相似，若是用户要从集群中移除节点 A ，那么集群只须要将节点 A 中的全部哈希槽移动到节点 B 和节点 C ，而后再移除空白（不包含任何哈希槽）的节点 A 就能够了。

由于将一个哈希槽从一个节点移动到另外一个节点不会形成节点阻塞，因此不管是添加新节点仍是移除已存在节点，又或者改变某个节点包含的哈希槽数量，都不会形成集群下线。

redis集群中的主从复制：

为了使得集群在一部分节点下线或者没法与集群的大多数（majority）节点进行通信的状况下，仍然能够正常运做， Redis 集群对节点使用了主从复制功能：集群中的每一个节点都有 1 个至 N 个复制品（replica），其中一个复制品为主节点（master），而其他的 N-1 个复制品为从节点（slave）。

在以前列举的节点 A 、B 、C 的例子中，若是节点 B 下线了，那么集群将没法正常运行，由于集群找不到节点来处理 5501 号至 11000 号的哈希槽。

另外一方面，假如在建立集群的时候（或者至少在节点 B 下线以前），咱们为主节点 B 添加了从节点 B1 ，那么当主节点 B 下线的时候，集群就会将 B1 设置为新的主节点，并让它代替下线的主节点 B ，继续处理 5501 号至 11000 号的哈希槽，这样集群就不会由于主节点 B 的下线而没法正常运做了。

不过若是节点 B 和 B1 都下线的话， Redis 集群仍是会中止运做。

redis集群的数据一致性：

Redis 集群不保证数据的强一致性（strong consistency）：在特定条件下， Redis 集群可能会丢失已经被执行过的写命令。

使用异步复制（asynchronous replication）是 Redis 集群可能会丢失写命令的其中一个缘由。考虑如下这个写命令的例子：

客户端向主节点 B 发送一条写命令。

主节点 B 执行写命令，并向客户端返回命令回复。

主节点 B 将刚刚执行的写命令复制给它的从节点 B1 、 B2 和 B3 。

如你所见，主节点对命令的复制工做发生在返回命令回复以后，由于若是每次处理命令请求都须要等待复制操做完成的话，那么主节点处理命令请求的速度将极大地下降 —— 咱们必须在性能和一致性之间作出权衡。

Redis 集群另一种可能会丢失命令的状况是，集群出现网络分裂（network partition），而且一个客户端与至少包括一个主节点在内的少数（minority）实例被孤立。

举个例子，假设集群包含 A 、 B 、 C 、 A1 、 B1 、 C1 六个节点，其中 A 、B 、C 为主节点，而 A1 、B1 、C1 分别为三个主节点的从节点，另外还有一个客户端 Z1 。

假设集群中发生网络分裂，那么集群可能会分裂为两方，大多数（majority）的一方包含节点 A 、C 、A1 、B1 和 C1 ，而少数（minority）的一方则包含节点 B 和客户端 Z1 。

在网络分裂期间，主节点 B 仍然会接受 Z1 发送的写命令：

若是网络分裂出现的时间很短，那么集群会继续正常运行；

可是，若是网络分裂出现的时间足够长，使得大多数一方将从节点 B1 设置为新的主节点，并使用 B1 来代替原来的主节点 B ，那么 Z1 发送给主节点 B 的写命令将丢失。

注意，在网络分裂出现期间，客户端 Z1 能够向主节点 B 发送写命令的最大时间是有限制的，这一时间限制称为节点超时时间（node timeout），是 Redis 集群的一个重要的配置选项：

对于大多数一方来讲，若是一个主节点未能在节点超时时间所设定的时限内从新联系上集群，那么集群会将这个主节点视为下线，并使用从节点来代替这个主节点继续工做。

对于少数一方，若是一个主节点未能在节点超时时间所设定的时限内从新联系上集群，那么它将中止处理写命令，并向客户端报告错误。

下面开始集群的搭建和管理：首先介绍一下咱们的实验环境

测试环境两台：

server1：172.16.16.34
server2：172.16.16.35
redis版本：redis3.2

搭建环境：redis集群，server1有7001,7002,7003三主，server2有7001,7002,7003三从，总共六个节点。这样作是为了保证redis的集群的高可用。redis的复制也是采用异步复制的方式。node

1，安装redis

cd /home/maxiangqian
tar xzf redis-3.2.8.tar.gz
cd redis-3.2.8
yum install gcc
make

2：建立redis目录文件夹redis

在server1和server2上都建立相应的文件夹：

mkdir /home/redis7001/data
mkdir -p /home/redis7001/data /home/redis7001/log /home/redis7001/tmp
mkdir -p /home/redis7002/data /home/redis7002/log /home/redis7002/tmp
mkdir -p /home/redis7003/data /home/redis7003/log /home/redis7003/tmp

3：为server1和server2的三个节点分别配置配置文件mongodb

以一个配置文件为例：

port 7001
timeout 300
 
daemonize yes
pidfile "/home/redis7001/tmp/redis_7001.pid"
 
loglevel notice
logfile "/home/redis7001/log/redis_7001.log"
 
databases 16
save 900 1
save 300 10
save 60 10000
stop-writes-on-bgsave-error yes
rdbcompression yes
rdbchecksum yes
dbfilename "dump.rdb"
dir "/home/redis7001/data"
 
slave-serve-stale-data yes
#slave-read-only yes # yes开启从库只读
repl-diskless-sync no
repl-diskless-sync-delay 5
repl-disable-tcp-nodelay no
slave-priority 100
 
appendonly yes
#appendfilename "appendonly.aof"
appendfsync everysec
no-appendfsync-on-rewrite no
auto-aof-rewrite-percentage 100
auto-aof-rewrite-min-size 64mb
 
lua-time-limit 5000
slowlog-log-slower-than 10000
slowlog-max-len 128
latency-monitor-threshold 0
 
requirepass "maxiangqianredis"
masterauth "maxiangqianredis"
 
#cluster
cluster-enabled yes
cluster-config-file /home/redis7001/nodes7001.conf
cluster-node-timeout 5000

上面是redis7001的配置文件内容数据库

而后启动7001的redis：

redis-server /home/redis7001/redis7001.conf

咱们看一下启动日志：ruby

1574:M 03 May 16:22:53.444 * No cluster configuration found, I'm 363ecec54c92c2548dcab016146bdb4c104e5e84

每一个实例都会为本身生成一个惟一的ID，用来识别集群中的惟一身份。

而后使用一样的方法启动其他五个实例

server1 7001
server1 7002
server1 7003
server2 7001
server2 7002
server2 7003

OK，如今已经有六个已经启动的redis实例了。咱们下一步开始作集群网络

4：开始建立集群

redis-trib.rb create --replicas 1 10.103.16.34:7001 10.103.16.34:7002 10.103.16.34:7003 10.103.16.35:7001 10.103.16.35:7002 10.103.16.35:7003

执行报错：app

/usr/lib/ruby/site_ruby/1.8/rubygems/custom_require.rb:31:in `gem_original_require': no such file to load -- redis (LoadError)
from /usr/lib/ruby/site_ruby/1.8/rubygems/custom_require.rb:31:in `require'
from /home/maxiangqian/redis-3.2.8/src/redis-trib.rb:25

咱们须要安装如下几个包：less

yum -y install zlib ruby rubygems
gem install redis

而后从新启动建立集群的操做：异步

[root@localhost redis7003]# redis-trib.rb create --replicas 1 10.103.16.34:7001 10.103.16.34:7002 10.103.16.34:7003 10.103.16.35:7001 10.103.16.35:7002 10.103.16.35:7003
>>> Creating cluster
[ERR] Sorry, can't connect to node 10.103.16.34:7001

又报错了我擦。async

网上各类搜资料咨询，最好仍是发现不是什么版本问题，是由于个人配置文件里加了如下两行配置：

requirepass "maxiangqianredis"
masterauth "maxiangqianredis"

群集认证是要配置完成再添加的，并且两个参数配置必须同样，咱们如今暂时不配置认证模式：

[root@localhost redis7003]# redis-trib.rb create --replicas 1 10.103.16.34:7001 10.103.16.34:7002 10.103.16.34:7003 10.103.16.35:7001 10.103.16.35:7002 10.103.16.35:7003
>>> Creating cluster
>>> Performing hash slots allocation on 6 nodes...
Using 3 masters:
10.103.16.35:7001
10.103.16.34:7001
10.103.16.35:7002
Adding replica 10.103.16.34:7002 to 10.103.16.35:7001
Adding replica 10.103.16.35:7003 to 10.103.16.34:7001
Adding replica 10.103.16.34:7003 to 10.103.16.35:7002
M: 363ecec54c92c2548dcab016146bdb4c104e5e84 10.103.16.34:7001
slots:5461-10922 (5462 slots) master
S: 93a0e8d405959480fcbd310a5d15a92346c69d43 10.103.16.34:7002
replicates d015a22abc57c021f568973f4f1c03c7a5c7b772
S: 78f77749f9f9a5f0d7c99427e0311912a3fa04e7 10.103.16.34:7003
replicates 89147e5837e378b69233dd2b8290267975719bc4
M: d015a22abc57c021f568973f4f1c03c7a5c7b772 10.103.16.35:7001
slots:0-5460 (5461 slots) master
M: 89147e5837e378b69233dd2b8290267975719bc4 10.103.16.35:7002
slots:10923-16383 (5461 slots) master
S: ce9d635236567ccde4c864f78863fa0a4b26f25a 10.103.16.35:7003
replicates 363ecec54c92c2548dcab016146bdb4c104e5e84
Can I set the above configuration? (type 'yes' to accept):

OK，已经提示成功了，咱们直接选择yes就行了。

>>> Nodes configuration updated
>>> Assign a different config epoch to each node
>>> Sending CLUSTER MEET messages to join the cluster
Waiting for the cluster to join..
>>> Performing Cluster Check (using node 10.103.16.34:7001)
M: 363ecec54c92c2548dcab016146bdb4c104e5e84 10.103.16.34:7001
slots:5461-10922 (5462 slots) master
1 additional replica(s)
S: 78f77749f9f9a5f0d7c99427e0311912a3fa04e7 10.103.16.34:7003
slots: (0 slots) slave
replicates 89147e5837e378b69233dd2b8290267975719bc4
M: d015a22abc57c021f568973f4f1c03c7a5c7b772 10.103.16.35:7001
slots:0-5460 (5461 slots) master
1 additional replica(s)
M: 89147e5837e378b69233dd2b8290267975719bc4 10.103.16.35:7002
slots:10923-16383 (5461 slots) master
1 additional replica(s)
S: ce9d635236567ccde4c864f78863fa0a4b26f25a 10.103.16.35:7003
slots: (0 slots) slave
replicates 363ecec54c92c2548dcab016146bdb4c104e5e84
S: 93a0e8d405959480fcbd310a5d15a92346c69d43 10.103.16.34:7002
slots: (0 slots) slave
replicates d015a22abc57c021f568973f4f1c03c7a5c7b772
[OK] All nodes agree about slots configuration.
>>> Check for open slots...
>>> Check slots coverage...
[OK] All 16384 slots covered.

这样群集就设置成功了。

查看一下集群的状态，测试一下：

在10.103.16.34:7001建立name测试字符串，而后验证

[root@mxqmongodb2 sa]# redis-cli -c -p 7001
127.0.0.1:7001> get name
-> Redirected to slot [5798] located at 10.103.16.34:7001
"txt"
10.103.16.34:7001> exit
[root@mxqmongodb2 sa]# redis-cli -c -p 7002
127.0.0.1:7002> get name
-> Redirected to slot [5798] located at 10.103.16.34:7001
"txt"
10.103.16.34:7001> exit
[root@mxqmongodb2 sa]# redis-cli -c -p 7003
127.0.0.1:7003> get name
-> Redirected to slot [5798] located at 10.103.16.34:7001
"txt"

5：咱们接下来查看一下集群的基本信息：

[root@localhost redis7003]# redis-cli -p 7001 cluster nodes
78f77749f9f9a5f0d7c99427e0311912a3fa04e7 10.103.16.34:7003 slave 89147e5837e378b69233dd2b8290267975719bc4 0 1493879665448 5 connected
d015a22abc57c021f568973f4f1c03c7a5c7b772 10.103.16.35:7001 master - 0 1493879663946 4 connected 0-5460
89147e5837e378b69233dd2b8290267975719bc4 10.103.16.35:7002 master - 0 1493879664948 5 connected 10923-16383
ce9d635236567ccde4c864f78863fa0a4b26f25a 10.103.16.35:7003 slave 363ecec54c92c2548dcab016146bdb4c104e5e84 0 1493879665949 6 connected
93a0e8d405959480fcbd310a5d15a92346c69d43 10.103.16.34:7002 slave d015a22abc57c021f568973f4f1c03c7a5c7b772 0 1493879664446 4 connected
363ecec54c92c2548dcab016146bdb4c104e5e84 10.103.16.34:7001 myself,master - 0 0 1 connected 5461-10922

能够看到如今的集群有六个节点，三个主节点和三个从节点。并且每一个主节点都会记录本身分配的哈希槽，从中咱们能够看到

103.16.35:7001 master - 0 1493879663946 4 connected 0-5460
10.103.16.34:7001 myself,master - 0 0 1 connected 5461-10922
10.103.16.35:7002 master - 0 1493879664948 5 connected 10923-16383

固然咱们也能够对这些节点的哈希槽进行从新的分配，咱们如今打算将103.16.35:7001的前100个哈希槽移动到10.103.16.34：7001

[root@localhost redis7003]# redis-trib.rb reshard 10.103.16.34:7001

而后会提示我输入数值以及从哪里迁移到哪里：

How many slots do you want to move (from 1 to 16384)? 100
What is the receiving node ID? 363ecec54c92c2548dcab016146bdb4c104e5e84
Please enter all the source node IDs.
Type 'all' to use all the nodes as source nodes for the hash slots.
Type 'done' once you entered all the source nodes IDs.
Source node #1:d015a22abc57c021f568973f4f1c03c7a5c7b772
Source node #2:done

执行完之后就能够进行迁移了，迁移完之后咱们再打印出来节点信息看一下：

[root@localhost redis7003]# redis-cli -p 7001 cluster nodes
78f77749f9f9a5f0d7c99427e0311912a3fa04e7 10.103.16.34:7003 slave 89147e5837e378b69233dd2b8290267975719bc4 0 1493881167965 5 connected
d015a22abc57c021f568973f4f1c03c7a5c7b772 10.103.16.35:7001 master - 0 1493881166460 4 connected 101-5460
89147e5837e378b69233dd2b8290267975719bc4 10.103.16.35:7002 master - 0 1493881166962 5 connected 10923-16383
ce9d635236567ccde4c864f78863fa0a4b26f25a 10.103.16.35:7003 slave 363ecec54c92c2548dcab016146bdb4c104e5e84 0 1493881167465 7 connected
93a0e8d405959480fcbd310a5d15a92346c69d43 10.103.16.34:7002 slave d015a22abc57c021f568973f4f1c03c7a5c7b772 0 1493881167965 4 connected
363ecec54c92c2548dcab016146bdb4c104e5e84 10.103.16.34:7001 myself,master - 0 0 7 connected 0-100 5461-10922

咱们能够很清楚的看到已经迁移成功了。

6：咱们来测试一下集群的故障转移功能

首先咱们要看一下集群的主节点信息：

[root@localhost redis7003]# redis-cli -p 7001 cluster nodes | grep master
d015a22abc57c021f568973f4f1c03c7a5c7b772 10.103.16.35:7001 master - 0 1493883826713 4 connected 101-5460
89147e5837e378b69233dd2b8290267975719bc4 10.103.16.35:7002 master - 0 1493883827213 5 connected 10923-16383
363ecec54c92c2548dcab016146bdb4c104e5e84 10.103.16.34:7001 myself,master - 0 0 7 connected 0-100 5461-10922

咱们如今要使10.103.16.35:7001这个主节点断掉，而后重启看一下基本信息

[root@mxqmongodb2 sa]# /home/maxiangqian/redis-3.2.8/src/redis-cli -p 7001
127.0.0.1:7001> SHUTDOWN
not connected> exit
[root@mxqmongodb2 sa]# redis-server /home/redis7001/redis7001.conf

而后再打印一下集群信息看一下：

[root@localhost redis7003]# redis-cli -p 7001 cluster nodes
78f77749f9f9a5f0d7c99427e0311912a3fa04e7 10.103.16.34:7003 slave 89147e5837e378b69233dd2b8290267975719bc4 0 1493884247801 5 connected
d015a22abc57c021f568973f4f1c03c7a5c7b772 10.103.16.35:7001 slave 93a0e8d405959480fcbd310a5d15a92346c69d43 0 1493884247300 8 connected
89147e5837e378b69233dd2b8290267975719bc4 10.103.16.35:7002 master - 0 1493884246798 5 connected 10923-16383
ce9d635236567ccde4c864f78863fa0a4b26f25a 10.103.16.35:7003 slave 363ecec54c92c2548dcab016146bdb4c104e5e84 0 1493884246298 7 connected
93a0e8d405959480fcbd310a5d15a92346c69d43 10.103.16.34:7002 master - 0 1493884248301 8 connected 101-5460
363ecec54c92c2548dcab016146bdb4c104e5e84 10.103.16.34:7001 myself,master - 0 0 7 connected 0-100 5461-10922

经过信息咱们能够很明显的看到了10.103.16.35:7001这个主节点已经变成了从节点，而自己他的从节点也上升为主节点了。

可是咱们须要注意的是在故障转移的时间段内，一些10.103.16.35:7001的写操做是会丢失的。直到他的从库提高为主库为止，这是redis为了保证数据一致性而采起的措施。

7：集群的节点管理：

咱们先看一下怎么添加节点，添加节点分为两类（主节点或者从节点）

主节点：

./redis-trib.rb add-node 10.103.16.34:7004 10.103.16.34:7001

这样咱们就把10.103.16.34:7004添加为集群的新的主节点，不过咱们要注意的是，这时候他仅仅是一个没有哈希槽的主节点，并不会存储任何数据。

咱们可使用 redis-trib 程序，将集群中的某些哈希桶移动到新节点里面，新节点就会成为真正的主节点了。

从节点：

./redis-trib.rb add-node 10.103.16.34:7004 10.103.16.34:7001
redis 10.103.16.34::7004> cluster replicate 3c3a0c74aae0b56170ccb03a76b60cfe7dc1912e

将新节点指定为ID为3c3a0c74aae0b56170ccb03a76b60cfe7dc1912e的从节点。

接下来咱们看一下怎么移除某个节点，语法格式以下：

./redis-trib del-node 127.0.0.1:7000 `<node-id>`

可是咱们要注意一点，移除主节点的时候必须保证主节点是空的，也就是事先将要移除的主节点的哈希槽给转移到其余的主节点上。