图解一致性hash算法

时间 2019-12-26

标签图解一致性 hash 算法栏目 Zookeeper 繁體版

原文原文链接

一致性hash算法

一、平衡性

平衡性是指哈希的结果可以尽量分布在全部的缓冲(Cache)中去，这样可使得全部的缓冲空间获得利用。不少哈希算法都可以知足这一条件。程序员

二、单调性：

单调性是指若是已经有一些内容经过哈希分派到了相应的缓冲中，又有新的缓冲加入到系统中。哈希的结果应该可以保证原有已分配的内容能够被映射到原有的或者新的缓冲中去，而不会映射到旧的缓冲集合中的其余缓冲区。算法

三、分散性：

在分布式环境中，终端有可能看不到全部的缓冲，而只能看到其中的一部分。当终端但愿经过哈希过程将内容映射到缓冲上去，因为不一样终端所见的缓冲范围有可能不一样，从而致使哈希的结果不一致，最终的结果是相同的内容被不一样的终端映射到不一样的缓冲区中。这种状况显然是应该避免的，由于它致使相同内容被存储到不一样缓冲中去，下降了系统存储的效率。分散性的定义就是上述状况发生的严重程度。好的哈希算法应该可以尽可能避免不一致的状况发生，也就是尽可能下降分散性。segmentfault

四、负载：

负载问题其实是从另外一个角度看待分散性问题。既然不一样的终端可能将相同的内容映射到不一样的缓冲区中，那么对于一个特定的缓冲区而言，也可能被不一样的用户映射到不一样的内容。与分散性同样，这种状况也是应当避免的，所以好的哈希算法应可以尽可能下降缓冲的负荷。服务器

算法原理

一、简单来讲，一致性哈希将整个哈希值空间组织成一个虚拟的圆环，如假设某哈希函数H的值空间为0-2^32-1（即哈希值是一个32位无符号整形），整个哈希空间环以下：

二、整个空间按顺时针方向组织。0到2的32次方减1微信

2^{32} -1

在零点中方向重合。下一步将各个服务器使用Hash进行一个哈希，具体能够选择服务器的ip或主机名做为关键字进行哈希，这样每台机器就能肯定其在哈希环上的位置，这里假设将上文中四台服务器使用ip地址哈希后在环空间的位置以下：

三、接下来使用以下算法定位数据访问到相应服务器：将数据key使用相同的函数Hash计算出哈希值，并肯定此数据在环上的位置，今后位置沿环顺时针“行走”，第一台遇到的服务器就是其应该定位到的服务器。
例如咱们有NODE一、NODE二、NODE三、NODE4四个数据对象，通过哈希计算后，在环空间上的位置以下：

分布式

四、根据一致性哈希算法，数据A会被定为到Node 1上，数据B被定为到Node 2上，数据C被定为到Node 3上，数据D被定为到Node 4上。
下面分析一致性哈希算法的容错性和可扩展性。现假设Node 3不幸宕机，能够看到此时数据A、B、D不会受到影响，只有数据C被重定位到Node 4。通常的，在一致性哈希算法中，若是一台服务器不可用，则受影响的数据仅仅是此服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间数据，其它不会受到影响。

下面考虑另一种状况，若是在系统中增长一台服务器Node X，以下图所示：

五、此时对象Object A、B、D不受影响，只有对象C须要重定位到新的Node X 。通常的，在一致性哈希算法中，若是增长一台服务器，则受影响的数据仅仅是新服务器到其环空间中前一台服务器（即沿着逆时针方向行走遇到的第一台服务器）之间数据，其它数据也不会受到影响。函数

综上所述，一致性哈希算法对于节点的增减都只需重定位环空间中的一小部分数据，具备较好的容错性和可扩展性。另外，一致性哈希算法在服务节点太少时，容易由于节点分部不均匀而形成数据倾斜问题。

例如系统中只有两台服务器，其环分布以下，

六、此时必然形成大量数据集中到Node 1上，而只有极少许会定位到Node 2上以下图：

为了解决这种数据倾斜问题，一致性哈希算法引入了虚拟节点机制，即对每个服务节点计算多个哈希，每一个计算结果位置都放置一个此服务节点，称为虚拟节点。具体作法能够在服务器ip或主机名的后面增长编号来实现。

例如上面的状况，能够为每台服务器计算三个虚拟节点，因而能够分别计算 “Node 1”、“Node 1#”、“Node 1#”、“Node 2”、“Node 2#”、“Node2#”的哈希值，因而造成六个虚拟节点：

七、同时数据定位算法不变，只是多了一步虚拟节点到实际节点的映射，例如定位到“Node 1#”、“Node 1”、“Node 1#”三个虚拟节点的数据均定位到Node 1上。这样就解决了服务节点少时数据倾斜的问题。在实际应用中，一般将虚拟节点数设置为32甚至更大，所以即便不多的服务节点也能作到相对均匀的数据分布。
帮忙关注一下微信公众号一块儿学习：chengxuyuan95（不同的程序员）学习