【3.工程开发】-稳定性相关异地多活

机房流量划分:

保证同一纬度查询写入尽可能在一个机房mysql

切流控制点:

  • DNS:DNS缓存,切流量没法马上生效 流量没法经过DNS彻底切干净,有剩余流量(对应入网框架中,在httpdns中改,有一点点本地缓存,webapp没法用httpdns)
  • LVS(没法根据业务需求流量划分的)
  • ROUTEr(改nginx)。内部调用(inrouter同上、thrift原本就是service的ip直接服务发现时改,用同一份)
  • 业务代码

选取router
增长nginx 的dynamic_req_add key cityid $city_id
dynamic_req $upstream_name default_liddc=xx upstreamm_name=xx port=xx;nginx

clipboard.png

clipboard.png

机房下线:
先DNS去掉,router配置去web

数据同步。本质是双机房要保持全量数据

mysql 主从
redis 见https://segmentfault.com/a/11...
为何redis不能和mysql同样用主从集群分机房?mysql自己主从延时就大,不像redis这种自己做为缓存的东西,机房间链路不稳定,若是主从复制配置同步或者命令延时就拒绝写/集群夸机房影响稳定。同步所有异步,基本用mq,不然要加丢失数据补齐太复杂。
mq。写入双写或消费双订阅。
切换过程当中,由于重试等会有点问题。没法作到的。。。redis

机房迁移,迁移过程当中双活。或维持上期双活

收敛配置,增长双机房配置
机器ready
功能验证。QA测
性能验证。指定url压测
数据同步
代码里用小流量测试
DNS改50
DNS完全改
残余流量:旧route中IP配成新机房的VIP(不配为IP的缘由是故障摘除方便,要一直持续发半年)sql

双活下机房迁移(有三活)
若是数据同步支持三活,没问题。若是只支持双活,能够:
验证C功能:A与B作双活,C读A的redis
数据切C:A与B断双活,B与C作双活,A读C redis
故障应对:C有问题后,流量切回A,A读Credis, C与B同步数据segmentfault

相关文章
相关标签/搜索