运维管理的提高-2013

管理大型的、全天候的互联网服务类、支持类以及运营类公司是一件艰苦的工做,须要运用到许多系统、人力以及跟踪和支持服务,而且任务列表每一年都在增长。咱们使用许多开源工具以及内置系统来完成这些工做。web


咱们不断地改进咱们的管理和系统,随着2013年的结束,咱们最近增长了下列项目和系统。数据库


专家级工程师 - 咱们的全天候核心支持团队就是咱们的报警和请求(Alert and Request)工程师团队,他们是一线支持人员,为您提供全天候支持服务。之前,遇到他们没法解决的特殊系统问题时,他们将问题提交到项目团队以及系统全部人,以便解决问题。可是,如今咱们有了新的专家团队,咱们这个团队能够提供更高级、更专业的咨询以及特定的系统知识,因此,咱们能够提供更快速的客户服务。这样,项目工程师团队就不会过于忙碌,并且,咱们也有了更多的资源,能够更快地提供实时支持服务。最近,咱们在下班后以及周末还提供此类服务,因此,咱们可以提供更快、更好的支持服务。安全


专家级系统 - 为了可以持续地、系统地跟踪事件,咱们为此构建了一套完整的系统。在任务管理屏幕系统(Ticket Management Screen)中,咱们要求工程师以正确的格式填写升级要求。咱们还采用独立的电子邮件组来帮助咱们审核事件、继续跟踪进程,这些均可以更好地组织好升级事件,极大地提升问题解决效率。服务器


全天候协调团队 - 咱们组建了专门的全天候协调团队,该团队由专业的报警和请求协调员组成,他们负责对任务(ticket)进行跟进、跟踪和审核,而且还帮助工程师进行内部协调工做(升级/紧急流程/任务转移等等。)以及外部通信工做(电子邮件/电话),以确保一切事件仅仅有条。作好运营工做是一件复杂的事情,天天都有许多事情同时发生,因此,协调团队还要管控什么时候开始和结束更新,也对事件顺序进行管理,以确保提供优质的客户服务。这些能够更好地帮助支持团队,提升整体效率和性能。网络


NOTOPS - 咱们有一个新的运营情报(NOTOPS),它能够给咱们的全天候团队支持发出通知提醒,它能够报告全部客户问题、维护、IDC流程问题以及全部团队成员所须要了解的一切其它必要问题。咱们的运营情报是根据飞行员的航空情报系统进行设计的,这个运营情报系统是一个自动化的系统,每次换班以及每次重大事件时,都会自动进行检查。当有报警时,还能够把该系统绑定到特定的服务器、历史和跟踪服务。ide


换班变动报告 - 做为全天候运营服务,换班变动是一项挑战,在信息传递、通知以及当前事件跟踪方面的挑战尤其明显。咱们新增了新系统、自动检查报表系统以及绝对管控交班流程系统,来提升对这一领域的控制力度。工具


新的夜班/周末升级流程 - 咱们改进了咱们的下班后的升级流程,使其能够更好地调度以及开展角色训练,而且为这个流程配备了设备以及积极平常测试系统,咱们运用该系统对待命的工程师升级通信通道进行测试。咱们还采用新型电话跟踪系统,以即可以报告并管理实际的电话流程,该系统极大地帮助了咱们处理调度和电话事件等问题。性能


紧急流程、工做日 - 新的紧急流程、团队以及资源处于随时待命状态,以便解决关键问题,如宕机、服务器崩溃以及数据库问题等等。若常规团队没法在短期内迅速解决问题,则发布紧急事件,该事件将在5分钟内迅速整合高级团队、协调人员、通信人员以及工程师,使这些人员汇聚一堂,经过运用快速更新、故障排除以及修复流程等工具迅速解决问题。这个流程的最重要的特色是:客户通信、团队协调和高级技术支持。测试


新型24x7服务器QA - 咱们有一套严格的新型QA流程,能够对全部将要投入生产(对于咱们而言是24x7)的服务器和系统进行检查。该流程能够确保这些服务器和系统已经达到了一切运营需求,尤为是监控、文档、访问控制、日志以及支持程序方面的需求。这能够切实地保障初期投产顺利运行,不只测试时间短、部署快,并且性能好、问题解决能力强。设计


新型设计系统 - 咱们最终启动了咱们的大型500构件的新型服务器设计系统。该系统虽然仍旧是beta状态,可是与咱们以前的系统相比,仍是改进了许多,包括一些关键特色,如模板和系统复制,为咱们节省了许多时间,也减小了咱们犯错的机会。它还有一个很是重要的验证功能,能够对关键参数如RAM或磁盘分配过分等问题进行检查或交叉验证,避免了许多新系统会发生的常见问题。在2014年,设计系统还将用于自动设置系统,以便直接根据设计自动构建新系统,而后进行QA检查(在系统构建之时和以后都进行检查)。


自动任务生成/自动任务关闭 - 咱们天天要处理500-1000个报警,虽然,咱们已经努力地减小报警量(经过咱们的ARP-报警减小程序),可是仍旧有许多工做要作,仍是会把许多事情搞混淆。咱们的新型的自动任务系统,能够经过建立和分配不一样类型的任务来减小咱们的工做量,并且自动关闭系统也能够清除已经不存在的报警的任务。这样,就确实地帮助了咱们的工程师和协调团队,使他们至始至终能够一直关注最关键的问题和报警。


培训 - 咱们已经增长了新的报警/请求培训,使其具备明确的新的分类和结构,以便更有序地随时为客户提供支持。在2014年,咱们在这个方面更进了一步,在各个级别层次上都有了不一样类型的支持工程师和认证服务,尤为是包括了新的MySQL、亚马逊AWS、安全、可靠性、工程师以及性能方面的内部认证。


关键问题审核任务 - 为防止相同问题重复发生,咱们始终帮助客户解决问题。除了频繁的报警ARP任务以外,咱们还启动了重大问题审核流程,咱们有经验更丰富的工程师来审核整个事件、发掘根本缘由、提供建设性解决方案、反映出咱们对客户的价值。


新型AR得分/评估程序 - 咱们来了一名新的报警-请求团队经理,拥有一个更先进、更有组织的程序能够检查并评估AR工程师工做绩效,包括使用全部指标和数据分析报表,这样,咱们能够按期评估全部事项,以便发现问题所在,对系统进行改进。


CNC Zabbix 控制面板2 - 该面板诞生于2013年,是一款独立的内部Zabbix 面板,能够放置全部重要报警还可用于清理屏幕,有助于工程师和协调员把更多的精力主要放在实时问题和最重要的问题上。


PM屏幕 - 使用PM荧屏可以更好地记录任务状态,也可选择性地同时更新许多任务以及搜索特定的任务。PM和协调员可使用该荧屏随时增长任务的状态,在平常营运晨会上也能够增长任务的状态,使会议时间缩短,这样咱们即可更快地投入到平常工做中。


门户新任务分配系统 - 为了可以提升所有请求的处理效率,咱们经过在新系统中增长新特色的方法改善了任务的分配处理流程,使这个处理流程的功能更增强大,咱们还须要设计许多额外的处理程序,在2014年,该处理流程能够完整地投入运营。


新型请求控制面板 - 咱们专门为请求处理开发了独具特点的控制面板,该面板与Zabbix的功能类似,极大地提升了协调团队的工做效率,可以更有序地跟踪和管理请求。


在2014年年初,将会有更多的变革,包括新增额外的雇员、24x7小时的培训;更强的下班后的紧急处理流程包括24x7小时紧急群客户聊天工具;额外的支持通道如QQ和简单聊天工具;新型自动构建系统和审计系统;配置跟踪系统;更强的syslog处理和web/syslog分析工具;新型的网络和防火墙配置;以及更多的其它工具。


( Authored by Steve Mushero | ChinaNetCloud CEO & CTO 本博客英文原文请点击查看

相关文章
相关标签/搜索