在IT运维的职业生涯中,若是作为一个系统运维工程师你要没遇到几回大的事故,你都很差意思说作过IT,不少IT运维者最怕的是出问题,但是出问题能镇定的化险为夷,不只能够凸显你的业务水平,并且能够锻炼你的应变能力和提升你技术能力,有些突发事故的过程能够说是IT极其宝贵的经验。服务器
固然咱们并不指望出现问题,我说的这些问题是指你不可控的一些意外的问题;好比说一台服务器的无热盘点raid5坏了一块硬盘因没有注意,后面又坏一块致使系统没法启动,这种问题属于你我的的失误,这是可控问题;但若是同时坏了两块,只说明点背,算是意外问题。好比空调失灵致使机房过热死机,也算意外问题,好比说机房突然断电又没法短时间恢复也算意外问题。微信
针对这些意外问题,咱们该怎么作才能作到防微杜渐或者亡羊补牢?网络
————————————准备篇——————————————运维
一、机房相关信息的准备:
电力:UPS启动关闭操做指南、市电的空开位置标识、ide
机柜:机柜布局图、内部网络链接图、外联网络链接图布局
空调:空调性能信息、空调的供电开关说明图性能
二、服务器类信息准备:spa
服务器的硬件配置表、IP地址表、管理员账号信息表、关键应用服务检测表、虚拟机和物理服务器对于关系表、服务器启动顺序表code
三、网络信息orm
防火墙策略说明、核心层和二层交换机链接端口表、各交换机登陆管理地址及账号信息。
四、联系人
包含 “设备厂商应急联系人、物业关键联系人、运营商业务经理、IT相关责任人、行政人员“的全部联系方式。
五、常见关键问题FAQ
以上的信息准备完毕,记得必定要周期性更新哟,不然无用。另外相关信息备份在企业外部例如手机里,便于随时随地可查询。
————————————监控篇——————————————
一、对全部关键设备进行硬件监控。监控软件尽可能不使用系统的应用层去监控,使用物理接口监控,像HP 的ILO监控、IPMI监控、SNMP监控。
二、关键服务监控
三、关键网络设备监控
以上监控节点的报警收件人指向相关联系人(IT内部人员),为避免企业内部监控系统出现异常问题致使没法及时报警,建议将监控在托管服务器上作冗余监控。
—————————————流程篇—————————————
任何事故都有其紧急程度,根据应用的重要性划分等级。
相关流程以下,灵活应用。
根据监控状态判断故障节点---先肯定事故等级性及影响范围----肯定事故解决的时间---邮件或电话通知相关受影响人--告知IT内部人员应急响应方案---根据准备篇收集的信息联系相关人或自行解决问题----解决完毕告知相关受影响人----对事故来龙去脉进行总结性汇报给领导
总之,IT人要不打没准备的仗,问题来了不要怕,冷静看待,见招拆招;固然若是您全部的关键应用的都有冗余备份能够顺利切换,我想你能够高枕无忧,毕竟能作到自动化恢复那将是极好的。
微信号:ithelpyou ,请关注我,我将给您提供不同的IT帮助。