更多内容,欢迎关注微信公众号:全菜工程师小辉。公众号回复关键词,领取免费学习资料。node
一致性hash算法,是麻省理工学院1997年提出的一种算法,目前主要应用于分布式缓存当中。
一致性hash算法能够有效地解决分布式存储结构下动态增长和删除节点所带来的问题。
在Memcached、Key-Value Store、Bittorrent DHT、LVS中都采用了一致性hash算法,能够说一致性hash算法是分布式系统负载均衡的首选算法。算法
经常使用的算法是对hash结果取余数 (hash() mod N):对机器编号从0到N-1,按照自定义的hash算法,对每一个请求的hash值按N取模,获得余数i,而后将请求分发到编号为i的机器。但这样的算法方法存在致命问题,若是某一台机器宕机,那么应该落在该机器的请求就没法获得正确的处理,这时须要将宕掉的服务器使用算法去除,此时候会有(N-1)/N的服务器的缓存数据须要从新进行计算;若是新增一台机器,会有N /(N+1)的服务器的缓存数据须要进行从新计算。对于系统而言,这一般是不可接受的颠簸(由于这意味着大量缓存的失效或者数据须要转移)。
缓存
传统求余作负载均衡算法,缓存节点数由3个变成4个,缓存不命中率为75%。计算方法:穷举hash值为1-12的12个数字分别对3和4取模,而后比较发现只有前3个缓存节点对应结果和以前相同,因此有75%的节点缓存会失效,可能会引发缓存雪崩。服务器
有哪些key会受到影响呢?图中加入了新节点node4,处于node1和node2之间,按照顺时针规则,从node1到node4之间的缓存再也不归属于node2,而是归属于新节点node4。所以受影响的key只有key2。微信
最终把key2的缓存数据从node2迁移到node4,就造成了新的符合一致性哈希规则的缓存结构。数据结构
有哪些key会受到影响呢?图中删除了原节点node3,按照顺时针规则,本来node3所拥有的缓存数据就须要“托付”给node3的顺时针后继节点node1。所以受影响的key只有key4。负载均衡
最终把key4的缓存数据从node3迁移到node1,就造成了新的符合一致性哈希规则的缓存结构。分布式
说明:这里所说的迁移并非直接的数据迁移,而是在查找时去找顺时针的后继节点,因缓存未命中而刷新缓存。函数
计算方法:假设节点hash散列均匀(因为hash是散列表,因此并非很理想),采用一致性hash算法,缓存节点从3个增长到4个时,会有0-33%的缓存失效,此外新增节点不会环节全部原有节点的压力。学习
一致性hash算法的结果相比传统hash求余算法已经进步不少,但可不能够改进一下呢?或者若是出现分布不均匀的状况怎么办?好比下图这样,按顺时针规则,全部的key都归属于统一个节点。
为了优化这种节点太少而产生的不均衡状况。一致性哈希算法引入了虚拟节点
的概念。
所谓虚拟节点,就是基于原来的物理节点映射出N个子节点,最后把全部的子节点映射到环形空间上。
虚拟节点越多,分布越均匀。使用一致性hash算法+虚拟节点这种状况下,缓存节点从3个变成4个,缓存失效率为25%,并且每一个节点都平均的承担了压力。
原理理解了,实现并不难,主要是一些细节:
另外,因为二叉树可能极度不平衡。因此采用红黑树是最稳妥的实现方法。Java中直接使用TreeMap便可。
更多内容,欢迎关注微信公众号:全菜工程师小辉。公众号回复关键词,领取免费学习资料。