公有云运维责任划分再也不难

叮铃铃~
“客户又投诉了!仍是投诉网络慢,快查查是怎么回事!”
“好的,立刻排查!”
王亮放下电话当即展开对整个数据中心网络的排查,心想,这已是这个月第3次接到这个客户投诉了,每次都是投诉网络慢,但紧急排查以后却又没有发现任何问题,这是怎么一回事呢?
王亮做为一名运维工程师,任职于西北某省中国移动公司云数据中心(后简称“数据中心”),数据中心肩负着全省众多机关单位的托管业务,王亮做为运维团队的一员,工做中最大的困扰就是接到客户投诉,却又没法排查出故障所在。
公有云运维责任划分再也不难
偶然一次关于公有云运维的技术论坛上,王亮接触到了明辰智航云安网络与虚拟化性能管理系统,经过与明辰智航云安团队的交流,试探的提出了此前困扰数据中心运维团队数月的问题,咨询该问题是否可以获得解决,令王亮没想到的是,明辰智航云安团队立刻就为数据中心开展了测试部署,将常接到投诉的应用拉到同一个服务组,并与王亮约定一周后能够查看结果。
通过一周的数据采集后,部署的明辰智航云安收集了足够的数据,并针对性的为数据中心进行了故障诊断。测试工程师进入明辰智航云安的操做界面,点击进入应用服务组,查看应用拓扑图,发现Web-server03服务器出现了红色示警,而且WebServer03与APP-LB-1外部网络通讯也一样出现了红色示警:
公有云运维责任划分再也不难
测试工程师接着点击红色示警的服务器WebServer03进一步查看,服务器详细界面中http服务出现了应用程序响应时间过长的问题:
公有云运维责任划分再也不难
点击红色示警的http进一步查看根本缘由,在根本缘由界面中,显示根本缘由与CPU、内存、存储有关系的可能性为0%,与应用程序中http由WebServer03提供有关系的可能性为50%:
公有云运维责任划分再也不难服务器

同时在应用交互信息界面中,部分客户端在与服务器WebServer03经过http服务交互过程当中,应用程序响应时间过长,而且每次针对与同一请求都出现响应时间过长的状况,且请求回应均可以经过:网络

② 服务器红色示警,应用程序响应时间过长;
② 根本缘由应用程序中http由WebServer03提供有关系;
③ 应用程序每次针对同一请求都出现响应时间过长的状况,且请求回应均可以经过。
结合以上三点,测试工程师判断问题多是出在客户应用程序上,故障点初步肯定!
明辰智航云安随即通知王亮故障诊断结果,王亮喜出望外,立刻经过数据中心将明辰智航云安的诊断数据记录发送给客户,客户工程师根据数据记录检查,最终找到问题确实出在了应用程序代码上,修正后,网络慢的问题终于被解决了!客户方工程师表示很是惊讶,一直追问是如何找到问题所在。王亮露出了释然的笑容。
在公有云运维中,因为应用程序形成的故障时有发生,而常规手段的排查运维人员很难具体判断出故障所在,从而致使没法进行责任划分。
运维人员可经过明辰智航云安直观的看到整个公有云环境的健康状态,经过简单的鼠标点击就能够进一步查看红色示警信息的根本缘由;其中应用拓扑图能够清晰的展示各服务器应用之间的联系和状态;应用的交互信息界面则记录了每一个交易请求的响应状况,为公有云运维责任划分提供强有力的证据。
通过这次与明辰智航云安的接触,数据中心的王亮真诚的说道,“在咱们团队平常运维中,如何进行责任划分,是困扰了你们好久的问题,咱们迫切的须要一款像明辰智航云安这样能快速定位故障,并明确进行责任划分的运维管理系统。”运维

——入运维苦似海,手没法器难称佛。
想要云运维,就要有云安!ide

相关文章
相关标签/搜索