如何建设高可用系统

时间 2019-11-08

标签如何建设可用系统繁體版

原文原文链接

转自：linux

https://mp.weixin.qq.com/s?__biz=MzAxOTQxOTc5NQ==&mid=2650497186&idx=1&sn=fee7574df35c256a0b1c079f43314513&chksm=83c8875eb4bf0e4842dba22b0d32c8c001f236b05682c38792b579675d66e88b3cc6f7fc749a&scene=0&key=83fc8dbbc3d4af1318dc9331938c8f49eecfab57bfe5e6b5e0e99a2a61df5a8a336fc4c164ad338e7f3218d47ea8a1655fb6f1583bc81ee8733dfdc24475709ea1ae6ee0ca7578ce00eaf13e3337a8a9&ascene=0&uin=MjcxMDgzNDQwMQ%3D%3D&devicetype=iMac+MacBookPro12%2C1+OSX+OSX+10.12.4+build%2816E195%29&version=12020110&nettype=WIFI&fontScale=100&pass_ticket=nV53VmXJ%2FqxeW1J4Iejnm2UD%2FAkwHlKqB6nb%2FeSGi0hd44pbUgRYkFrHa%2BEX7NVr面试

面试的时候常常会问一个问题，如何建设高可用系统？你们能够一块儿探讨下。shell

“高可用性”（High Availability）一般来描述一个系统通过专门的设计，从而减小停工时间，而保持其服务的高度可用性。如下是高可用系统的设计建议：数据库

设计建议

减小单点 - 去单点首先要识别整个系统全部主链路的单点，如机房（同城异地双机房），应用服务器，DNS服务器，SFTP服务器，LBS，缓存服务器，数据库，消息服务器，代理服务器和专线等，如系统经过专线调用对方服务，须要考虑同时拉联通和电信的专线，联通或电信的专线仍是有必定几率会出现问题的，可是同时出问题的几率会小很是多。优先使用软负载，使用硬负载兜底。缓存
减小依赖 - 减小DNS依赖，减小远程服务依赖，DNS依赖能够尝试设置本地host，用工具给全部服务器推送最新的域名映射关系，经过本地缓存或近端服务减小RPC调用。服务器
限制循环 - 避免无限死循环，致使CPU利用率百分百，能够设置for循环的最大循环次数，如最大循环1000次。异步
控制流量 - 避免异常流量对应用服务器产生影响，能够对指定服务设置流量限制，如QPS，TPS，QPH（每小时总请求量）和QPD（天天总请求量）。分布式
精准监控 - 对CPU利用率，load，内存，带宽，系统调用量，应用错误量，PV，UV和业务量进行监控，避免内存泄露和异常代码对系统产生影响，配置监控必定要精准，如平时内存利用率是50%，监控能够配置成60%进行报警，这样能够提早感知内存泄露问题，避免应用无响应。工具
无状态 - 服务器不能保存用户状态数据，如在集群环境下不能用static变量保存用户数据，不能长时间把用户文件存放在服务器本地。服务器有状态会难以扩容，且出现单点问题。性能
容量规划 - 按期对容量进行评估。如大促前进行压测和容量预估，根据须要进行扩容。
功能开关 - 打开和关闭某些功能，好比消息量过大，系统处理不了，把开关打开后直接丢弃消息不处理。上线新功能增长开关，若是有问题关闭新功能。
设置超时 - 设置链接超时和读超时设置，不该该太大，若是是内部调用链接超时能够设置成1秒，读超时3秒，外部系统调用链接超时能够设置成3秒，读超时设置成20秒。
重试策略 - 当调用外部服务异常时能够设置重试策略，每次重试时间递增，可是须要设置最大重试次数和重试开关，避免对下游系统产生影响。
隔离 - 应用隔离，模块隔离，机房隔离和线程池隔离。能够按照优先级，不变和变几个维度来隔离应用和模块，如抽象和不变的代码放在一个模块，这个模块的代码几乎不会修改，可用性高，常常变的业务逻辑放在一个模块里，这样就算有问题，也只会影响到某一个业务。不一样的业务使用不一样的线程池，避免低优先级任务阻塞高优先级，或高优先级任务过多时影响低优先级任务永远不会执行。
异步调用 - 同步调用改为异步调用，解决远程调用故障或调用超时对系统的影响。
热点缓存 - 对热点数据进行缓存，下降RPC调用。如B系统提供名单服务，B系统能够提供一个client SDK提供近端缓存服务，按期去服务器端取数据，减小RPC调用。
缓存容灾 - 当数据库不可用时可使用缓存的数据。并设置分级缓存，如优先读本地缓存，其次读分布式缓存。
分级缓存 - 优先读本地缓存，其次读分布式缓存。经过推模式更新本地缓存。
系统分级 - 对系统进行分级，如ABC三个等级，高级别系统不依赖于低级别系统，而且高级别系统比底级别系统高可用率要高。
服务降级 - 若是系统出现响应缓慢等情况，能够关闭部分功能，从而释放系统资源，保证核心服务的正常运行。须要识别哪些服务能够降级，好比忽然有大量消息流入，致使服务不可用，咱们会把消息直接丢弃掉。或经过设置流控，拒绝为低级别系统提供服务。
流量蓄洪 - 当流量陡增时，能够将请求进行蓄洪，如把请求保存在数据库中，再按照指定的QPS进行泄洪，有效的保护下游系统，也保证了服务的可用性。当调用对方系统，对方系统响应缓慢或无响应时，可采起自动蓄洪。
服务权重 - 在集群环境中，可自动识别高性能服务，拒绝调用性能低的服务。如在集群环境中，对调用超时的服务器进行权重下降，优先调用权重高的服务器。
依赖简化- 减小系统之间的依赖，好比使用消息驱动，A和B系统经过消息服务器传递数据，A和B系统使用数据库进行读写分离，A系统负责往数据库中写数据，B系统负责读数据，由于数据存放在数据库中，当A不可用时，短期内不影响B系统提供服务。
弹性扩容 - 根据资源的使用率自动或手动进行扩容。如带宽不够用时，快速增长带宽。
灰度和回滚 - 发布新功能只让部分服务器生效，且观察几天逐渐切流，若是出现问题只影响部分客户。出现问题快速回滚，或者直接下线灰度的机器。
减小远程调用 - 优先调用本地JVM内服务，其次是同机房服务，而后是同城服务，最后是跨城服务。如A调用B，B调用互联网的C系统获取数据，B系统能够把数据缓存起来，并设置数据的保鲜度，减小B对C的依赖。配置中心把注册服务的地址推送到调用服务的系统本地。参数中心把参数配置信息推送到系统的本地内存，而不是让系统去远程服务器获取参数信息。
熔断机制 - 增长熔断机制，当监控出线上数据出现大幅跌涨时，及时中断，避免对业务产生更大影响。如咱们作指标计算时，指标能够计算慢，可是不能算错，若是发现某个用户的指标环比或同比增加一倍或跌零，会考虑保存全部消息，并停止该用户的指标计算。
运行时加载模块 - 咱们会把常常变的业务代码变成一个个业务模块，使用Java的ClassLoader在运行时动态加载和卸载模块，当某个模块有问题时候，能够快速修复。
代码扫描 - 使用IDEA代码分析等工具进行代码扫描，识别出程序中的BUG，如空指针异常，循环依赖等。
自动备份 - 程序，系统配置和数据按期进行备份。可以使用linux命令和shell脚本定时执行备份策略，自动进行本地或异地。出现问题时能快速从新部署。
线上压测 - 系统的对外服务须要进行压测，知道该服务能承受的QPS和TPS，从而作出相对准确的限流。

参考资料

分布式系统稳定性模式