[原创]浅谈互联网企业故障定级安全
相信各位所在的互联网企业,都会有对故障级别的定义,无论是作金融,电信,游戏,仍是社交等,故障这个词永远不陌生,今天来谈下对故障定级应如何去考虑。游戏
首先,来谈谈什么是故障?系统上线后,通常都会正常运营,若是出现一些非不可抗拒因素形成的对系统服务中断或是发生非预期的行业,均可以称为故障。一般多数公司都会按严重性来区分故障定级,虽然是一个很好的方法,但有时技术人员会绝得,我很短期就恢复了,并无形成很大的损失,因此我的绝得故障也要有时间维度,总结如上所说,咱们就将按严重性危害和时间二个大的维度来定义。互联网
故障定级,通常咱们会去定义5级,具体以下:方法
1级 系统中断2小时以上 形成大范围影响使用(通常出现主要的领导是要背责的);技术
2级 系统中断30分钟-2小时之间 形成大范围影响使用;总结
3级 系统重要模块出现问题,影响大量用户投诉;时间
4级 系统次要模块出现问题,影响部分用户投诉;思考
5级 系统资要模块出现问题,有少量影响形成投诉;行业
一般各公司故障定级大同小异,与我上面描述都差不了多少,只是具体的边界限定各公司标准不同,我的认为一个成熟的公司至少都应有上面如述要求;可是咱们发现没这个定义去偏偏少了一些重要考虑因素,是什么呢?钱,若是出了故障很小范围,影响面小,但会给公司形成损失,难道不考虑吗?因此在互联网金融系统中,对故障尤为是资金安全也会作为一条衡量系统故障级别的考察点,通常咱们定义以下:系统
若是给公司或用户形成50000元损失,将认定为1级严重故障或是事故(通常出现主要的领导是要背责的);其它各级别定义,我就不在详述,基本上大同小异,重要的考考虑问题及思考的角度。