大促准备（八）大促当天执行

时间 2019-12-14

标签准备当天执行繁體版

原文原文链接

通过了前面的各类准备，大促终于到了，在大促当天要关注的事情也是至关多的，须要有条不紊的循序渐进的执行。java

1.值班安排

大促期间执行、验证、观察的事项仍是比较多的，最好是有两我的进行主备，每一件事情最好可以double check，而且作好事项的分工。web

2.应用服务器磁盘空间清理|重启

系统在运行过程当中一般会打印多种的日志，日志打印的速度要比系统的执行速度慢上很多，若是在打印日志的过程当中发现磁盘空间不够用，还须要进行磁盘清理，将老的日志文件给清除掉。这种操做是很占用cpu和io资源，严重的话会把系统夯住，致使请求大量超时。于是在大促高峰前须要对应用服务器的磁盘进行清理，只保留最少许的文件，下降高峰前由于打印日志引起的系统的不可用风险。服务器

对于采用java语言的系统，服务器重启主要是为了释放内存，避免在高峰期发生old区gc或者full gc，使得系统暂时不可用，影响上游系统的调用spa

3.限流推送和验证

在平常状况下，限流的模式多是监控模式，在大促高峰期须要设置为拦截模式，避免系统雪崩。
主要是根据线上确切的服务器数量和大促预期峰值，肯定单机限流值，然后推送到全集群。推送以后就是验证了，这个验证一方面是单机抽查，另外一方面靠系统的监控。日志

4.预案推送和验证

在临近高峰期前，会推送预案，一般会设置定时预案执行集，这样不用一个一个预案的推送，减小工做量也能统一管理，于是要确保本身系统的预案配置在了预案集中了。
虽然预案的验证工做量相对会多些，可是按照以前肯定好的验证list循序渐进的验证就能够了，能够作到忙而不乱。内存

5.监控准备

大促高峰期主要须要监控的事项比较多：error、rt、cpu、load、gc、db、tair、message、限流、下游主要系统等、上游主要系统等，须要根据以前的分工来监控不一样的事项。在高峰来临前将对应的监控打开准备好观察，同时web形式的监控由于会涉及到日志的打印、传输、计算、展示等操做，会有必定的延时，于是最好可以打开相应的终端，登陆上对应的服务器，使用脚本或者命令实时查看服务器的状态。资源

6.高峰期观察&应急

虽然前面经历了大量的准备工做和各类各样的预案，咱们也指望大促能按照咱们的指望来进行的。但天有不测风云，仍然有可能发生预料以外的事情，这个时候更多的依赖系统owner的平时的积累了，综合评估状况在很短的时间内采起应对措施。
经常使用的手段就是限流、降级、熔断，还有一种就是静观其变，等待高峰期本身过去，具体采起哪一种措施要依问题严重程度、是否会持续等来综合评估，别人都是旁观者、建议者，真正能作决定的就是系统owner，要为决策负责的也是系统owner，也真是这种决策的压力促使owner成长。io

若是没有预料外的事情发生，就静静的观察监控，分析思考高峰期的种种现象。集群

7.大促数据记录

此次的大促是对前一段工做的检验，也是下一个大促的起点，此次大促高峰期的各项数据将会对下一次的大促的准备提供很是好的基础，于是要对大促期间的数据作好记录并备案，供之后进行分享参考，记录的数据主要有两类：
1）高峰数据，了解各类峰值
2）全天数据，了解全天的变化登录

8.预案、限流回滚

当大促高峰或者活动结束后，一般会把以前推送的预案和限流进行回滚。回滚一般也是配置在预案集中的，进行集中的回滚。回滚的时候一样要注意观察，特别是上游降级预案的回滚，极可能是会致使本身系统的调用量猛增，至关于又来了一次高峰，千万不要由于大促过去了就掉以轻心，在最后的关头出故障。