redis-集群（cluster）扫盲篇（一）

时间 2019-12-14

标签 redis 集群 cluster 扫盲栏目 Redis 繁體版

原文原文链接

什么是redis的集群

按我我的的理解，redis集群就是实现多个redis节点之间进行数据的共享。node

集群有什么好处：redis

将数据自动split到多个节点进行存储。
当集群中的一部分节点失效或者没法进行通信时，仍然能够继续处理命令请求。

redis集群的数据共享

redis集群采用的是数据分片，即sharding，而并非一致性哈希（consistency hash）。数据库

一个redis集群包含16834个哈希槽（hash slot）数据库中的每一个键都属于这 16384 个哈希槽的其中一个，集群使用公式 CRC16(key) % 16384 来计算键 key 属于哪一个槽，其中 CRC16(key) 语句用于计算键 key 的 CRC16 校验和 。网络

集群中的每一个节点负责处理一部分哈希槽。举个例子，一个集群能够有三个哈希槽，其中：异步

节点 A 负责处理 0 号至 5500 号哈希槽。
节点 B 负责处理 5501 号至 11000 号哈希槽。
节点 C 负责处理 11001 号至 16384 号哈希槽。

这种将哈希槽分布到不一样节点的作法使得用户能够很容易地向集群中添加或者删除节点。好比说：async

若是用户将新节点 D 添加到集群中，那么集群只须要将节点 A 、B 、 C 中的某些槽移动到节点 D 就能够了。
与此相似，若是用户要从集群中移除节点 A ，那么集群只须要将节点 A 中的全部哈希槽移动到节点 B 和节点 C ，而后再移除空白（不包含任何哈希槽）的节点 A 就能够了。

由于将一个哈希槽从一个节点移动到另外一个节点不会形成节点阻塞，因此不管是添加新节点仍是移除已存在节点，又或者改变某个节点包含的哈希槽数量，都不会形成集群下线。性能

Redis 集群中的主从复制

为了使得集群在一部分节点下线或者没法与集群的大多数（majority）节点进行通信的状况下，仍然能够正常运做， Redis 集群对节点使用了主从复制功能：集群中的每一个节点都有 1 个至 N 个复制品（replica），其中一个复制品为主节点（master），而其他的 N-1 个复制品为从节点（slave）。spa

在以前列举的节点 A 、B 、C 的例子中，若是节点 B 下线了，那么集群将没法正常运行，由于集群找不到节点来处理 5501 号至 11000 号的哈希槽。ip

另外一方面，假如在建立集群的时候（或者至少在节点 B 下线以前），咱们为主节点 B 添加了从节点 B1 ，那么当主节点 B 下线的时候，集群就会将 B1 设置为新的主节点，并让它代替下线的主节点 B ，继续处理 5501 号至 11000 号的哈希槽，这样集群就不会由于主节点 B 的下线而没法正常运做了。get

不过若是节点 B 和 B1 都下线的话， Redis 集群仍是会中止运做。

Redis 集群的一致性保证（guarantee）

Redis 集群不保证数据的强一致性（strong consistency）：在特定条件下， Redis 集群可能会丢失已经被执行过的写命令。

使用异步复制（asynchronous replication）是 Redis 集群可能会丢失写命令的其中一个缘由。考虑如下这个写命令的例子：

客户端向主节点 B 发送一条写命令。
主节点 B 执行写命令，并向客户端返回命令回复。
主节点 B 将刚刚执行的写命令复制给它的从节点 B1 、 B2 和 B3 。

如你所见，主节点对命令的复制工做发生在返回命令回复以后，由于若是每次处理命令请求都须要等待复制操做完成的话，那么主节点处理命令请求的速度将极大地下降 —— 咱们必须在性能和一致性之间作出权衡。

若是真的有必要的话， Redis 集群可能会在未来提供同步地（synchronou）执行写命令的方法。

Redis 集群另一种可能会丢失命令的状况是，集群出现网络分裂（network partition），而且一个客户端与至少包括一个主节点在内的少数（minority）实例被孤立。

举个例子，假设集群包含 A 、 B 、 C 、 A1 、 B1 、 C1 六个节点，其中 A 、B 、C 为主节点，而 A1 、B1 、C1 分别为三个主节点的从节点，另外还有一个客户端 Z1 。

假设集群中发生网络分裂，那么集群可能会分裂为两方，大多数（majority）的一方包含节点 A 、C 、A1 、B1 和 C1 ，而少数（minority）的一方则包含节点 B 和客户端 Z1 。

在网络分裂期间，主节点 B 仍然会接受 Z1 发送的写命令：

若是网络分裂出现的时间很短，那么集群会继续正常运行；
可是，若是网络分裂出现的时间足够长，使得大多数一方将从节点 B1 设置为新的主节点，并使用 B1 来代替原来的主节点 B ，那么 Z1 发送给主节点 B 的写命令将丢失。

注意，在网络分裂出现期间，客户端 Z1 能够向主节点 B 发送写命令的最大时间是有限制的，这一时间限制称为节点超时时间（node timeout），是 Redis 集群的一个重要的配置选项：

对于大多数一方来讲，若是一个主节点未能在节点超时时间所设定的时限内从新联系上集群，那么集群会将这个主节点视为下线，并使用从节点来代替这个主节点继续工做。
对于少数一方，若是一个主节点未能在节点超时时间所设定的时限内从新联系上集群，那么它将中止处理写命令，并向客户端报告错误。