超级负载均衡【转】

时间 2019-11-13

原文原文链接

超级负载均衡旨在为解决服务不断扩展、机器不断增多、机器性能差别等问题，以加强系统的稳定性，自动分配请求压力。算法实现了多个模型和均衡策略，能经过配置实现随机、轮询、一致hash等。同时也能实现跨机房的相关分配。现已经在多个系统中使用。php

现有系统中存在的问题：前端

1. 慢链接、瞬时访问慢。算法

场景一：后端

若是后端新增长机器，cache命中率低，所以响应速度慢，可是能链接上且不超时。若是ui持续访问就会把ui夯住。负载均衡

场景二：dom

若是后端模块某一台机器响应较慢。若是前端持续访问就会被夯住。性能

2. 死机。ui

场景一：spa

能断断续续响应请求，不过速度很慢。形成ui夯住。设计

3. 混合部署。

场景一：

多个模块在同一机器上，项目影响。

4. 机器权重。

场景一：

老机器，性能差；新机器，性能彪悍。所以他们应该承载不一样的压力。

5. 跨机房冗余。

场景一：

后端对cache依赖很高的模块，由于采用的是一致hash算法，若是挂掉一台机器，对另外的机器cache命中率冲击很大。所以但愿将对这个机器的请求均衡到另一个机房。

6. php和c使用一样的策略。

如今php和c但愿能使用的策略其实是有很大的一致。为了不重复开发，php和c但愿采用一样的负载均衡库。

要解决的问题：

设计思路：

1. 根据均衡策略计算出的均衡值对Server进行逆序排序。

2. 负载选择。对步骤1排序后的Server按如下顺序进行选择：

a、按链接失败几率进行选择。

注：横轴表明失败次数，纵轴表明选择的几率。

Cconn：一段区间内失败次数

f(Cconn)：链接几率，取值范围在(0，100]

b、按健康状态选择。

整个模型基于服务处理时间的收敛性。

分析：

1）若是机器状态良好，则平均处理时间会保持在一个稳定水平；即便是小波动，也会较快平稳在一个状态。

2）若是机器开始出现问题，处理时间会开始增加。若是增加持续超过一段时间，则说明有可能会影响服务；若是一段时间后稳定了，说明对请求没有太多影响。

f(healthy)：机器健康状态，取值范围[0,1]

select(healthy)：机器选择几率，取值范围[R,1]

c、若是全部机器都没选中，则随机选择一台机器进行服务。

3. 机器流量均分。

不一样的机器处理能力是不同的。当按照步骤2选择了某台机器，须要将其余处理时间为他的1/T（T>=2）的机器也选取出来，将部分压力分给对应的机器。

设k台机器的处理时间分别是t1, t2,…,tk, 选中的机器id＝i，比该机器处理能力高的机器时间分别为p1,p2,..,pr, （其中pj × T <= ti）。设一段时间总访问量为Y，每台机器理论上的访问量应该为Vg=Y/k。而实际的Vr=Y/(ti * (1/t1+1/t2+…+1/tk))。则应该分出Vg-Vr的流量给pj。pj的流量比例为1/p1:1/p2:…:1/pr

算法设计：

A、均衡算法

1. 一致hash算法。

将每一个server的ip和port加上balance_key三者作字符串拼接后，作md5签名。

value(server) = md5(server_ip + server_port + balance_key)

2. 随机算法。

value(server) = random();

3. 轮询算法。

value(server) =((server.id – (rounds ％ server_count)) + server_count) % server_count

4. 多个选一算法。

rank初始化为1，若是默认的server失败，则rank＋1

value(server) =((server.id – (rank ％ server_count)) + server_count) % server_count

B、负载算法

1. 链接状态算法。

a、对每个server开辟一个状态队列。bool queue[K] 用来统计失败次数。每次有坏状态进队，计数加一。若是有坏状态出队，则计数减一。

b、按照f(Cconn)公式计算出选择几率。

c、利用rand()%100是否在[0,f(Cconn)]来决定是否选择该机器。

2. 健康状态算法。

a、每台机器维持一个一秒钟内的处理时间T和次数C。

b、当一秒过去之后，将T、C计算为平均处理时间R。

c、每M秒，统计每台机器最近一段时间的平均处理时间，按照公式select（healthy）算出选择几率。

d、利用rand()%100是否在[0, select(healthy)*100]来决定是否选择该机器。

C、流量均分

按照策略选出知足要求的机器，按照流量均分公式进行流量分配。

分配时按照balance_key＋server方式和random（）来分配机器，尽可能保证请求落在同一台机器。