运维老司机的问题排查经验总结帮你顺利排险

时间 2019-11-12

原文原文链接

导读	看似无章可循问题进行排查时能够说是世界上最紧张且难度、强度最大的工做之一，尤为面对极高收入的业务、海量服务运营，带来极大的恐慌感并引起肾上腺素飙升，压力的存在可能诱发咱们犯下的低级失误。

看似无章可循问题进行排查时能够说是世界上最紧张且难度、强度最大的工做之一，尤为面对极高收入的业务、海量服务运营，带来极大的恐慌感并引起肾上腺素飙升，压力的存在可能诱发咱们犯下的低级失误。克服这种白痴般的本能，咱们须要克制本身快要爆发的一腔怒火、强迫本身以有条不紊的方式逐一开展尝试。其实作运维练就的是一种心态，足够淡定遇事而不乱，从容应对才是真。html

排查出问题并找到根本缘由加以解决，我的认为是一件很成就感的事情。曾经有人问过我：“你是怎么想到问题出如今xxx的？又是怎么确认根本缘由是xxx的？”，我只能轻描淡写的回答：“靠经验”，而后感受这个逼装得还能够。其实这里说的“靠经验”是很模糊的，一直以来你们可能都以为排查问题要靠经验，可是又说不出具体经过什么样的经验排查出了问题，最后让排查问题逐渐变成了一门玄学。其实问题排查工做每每遵循一些通用且不成文的实践规则，并非一门所谓的玄说，结合自身经历、总结，但愿能为你们的实际工做带来助益。linux

从入行到如今，遇到过各式各样，千奇百怪的问题，然而每一个业务形态和系统均不同，咱们每每能搜索到不少某一个或一类问题解决办法，但我的以为认知方法、经验难复制，因此抽（套）象（路）说说关于“问题排查”的方法论，但愿能与您产生更多的共鸣。算法

排查问题犹如破案数据库

运维排查线上问题犹如警察破案同样，是一个不停分析线索，推理的过程，但在准备排查问题以前，咱们应该明白三个认知：缓存

认知，几乎是人和人之间惟一的本质差异。 —— 傅盛《认知升级三部曲》安全

系统出现异常是正常服务器

时至今日计算机系统已经变得异常复杂，一次用户请求可能要通过发送请求，DNS解析，运营商网络，负载均衡，服务器，虚拟机（容器），视业务逻辑的复杂程度可能还要调用组件，缓存，存储和数据库等。每一个环节均可能出现问题，有的组件又是分布式的，大大增长的排查问题的难度，因此出现问题后不要慌，保持好的心态。网络

首要任务是恢复系统架构

“飞机在发生紧急状况下，飞行员的首要任务是保持飞机飞行，相比保证乘客与飞机安全着陆，故障定位和排除是次要目标”，因此恢复线上系统是首要任务，而不是立马找到它发生的缘由。负载均衡

真相永远只有一个计算机是一门科学，并且计算机的世界里都是由0或1组成，在这个世界里只有是或否，没有中间地带，因此在计算机世界凡事都有根本缘由，没有偶然发生，一切都是必然。

了解案情，评估大小

先评估出这个问题的影响范围，是全网，某些地区，仍是某条链路不可用的问题，仍是不少业务线都出现问题，评估出案情的大小，究竟是普通的民事案件，仍是刑事案件。

理清线索，整理分析

理清手头已获得的信息或线索，好比监控上有网络报警，有用户反馈没法访问，有开发人员反馈服务器有问题，同时间段有作变动等等，尽可能不要漏掉这些看似可有可无的线索，把这些线索先整理下来，后面一并分析。

推理的过程，就是根据已知线索，经过合理的想象、推断得出一个惟一的结果。线索是整个推理过程的起点，线索给出的好有很差、是否有错误，直接会影响推理的质量，所以是最基础、也是最重要的一环。线索的梳理，最常犯错误就是信息不足，主观臆断。

扩大你的信息量

主动扩大信息的接收面，好比问询一下开发或算法同窗，今天有没有作线上改动，网络组有无重大调整。从中获取到有价值的信息点，对于排查问题相当重要。查看监控，细看某个监控项的变化，追踪日志和调试信息都是扩大信息量的手段。

拓展知识面，闲暇时间多些了解相关联系统，好比架构，部署，逻辑等。一旦故障发生，讨论中也可提供你解决办法的思路，触类旁通，推动问题的排查与解决。

分析证词，甄别对错

若是是外部提出的问题，好比业务投诉，用户反馈等信息，有时候是可信的，有时候人倒是不可信的，举个例子以前有开发反馈效果有问题，有些广告位bias异常，有些正常，让咱们帮查查系统的问题，可是最后是代码调用一处动态配置形成的。有些时候反馈的信息，是通过描述者过滤加工过的信息，他的排查和分析有可能把你带偏了，在收集信息同时须要以审视、怀疑的态度，分析每一个人的证词。

每一个人的学习能力其实都很强的，随着经验的积累，甄别证词能力也会逐渐提高。

看清问题本质

“听到马蹄声时，猜马，不要猜斑马”看到一件现象或一件事情，要看实质而不仅是表面的东西，听到马蹄声时候猜是什么马，是什么人的马，是来干什么的而不是猜它是斑马仍是白马仍是黑马。

排查问题也同样切忌先入为主，有时候看似不可能发生、极其简单的事情可能就是最终缘由，不要轻易的排除掉某项缘由，好比“宇宙射线引起SSD数据错误”。

很早以前碰到过一个某svr耗时高问题，查了好久也作了一些调优依然不见效，最后发现实际上是网卡跑满了。

肯定方向，开展定位

肯定侦查方向，如从大到小，从上到下排查步骤，从大到小先看好比IDC网络，机房状态等比较宏观的地方是否有问题，逐一排除，逐步缩小问题范围。从上到下先从现象发生的顶端调用链逐一排查，逐步向下深刻。

并非全部问题都从大到小从上到下，宏观问题只有达到必定量级才会引起”质变”，从而引发的注意，在通往质变过程当中，你的业务可能已经收到某中影响而表现的很明确，此时须要微观分析，而后再逐渐到宏观来诊断。

总结记录，破案归档

好记性不如烂笔头，然而在一片混乱问题分析当中，让运维心平气和地记录下问题与判断确实有点不切实际。但即便如此，咱们仍然能够在事情结束后为保留一份分析资料，总结并记录处理过程当中的执行步骤以及解决途径，则能帮助本身和团队积累宝贵的处理经验。

以上方法流程翻译成运维术语：

吃一堑长一智

出了问题并不可怕，怕的是咱们从问题中学不到什么，怕的是相似的问题重现，提升问题定位的效率，有哪些值得去作，好比：

创建长效错误码机制，使用具统计、可视意义的数字来简短描述错误含义和范畴，正所谓浓缩就是精华，这一点在错误码屡试不爽。

编写有效的错误日志，创建日志标准。正常程序中打错误日志主要是为了更好地排查问题和解决问题，提供重要线索和指导。可是在实际中打的错误日志内容和格式变化多样，错误提示上可能残缺不全、没有相关背景、不明其义，使得排查解决问题成为很是不方便或者耗时的操做。而实际上只要开发稍加用心，也需就会减小排查问题的不少无用功。如何编写有效的错误日志，创建日志标准，也是很是有利于问题分析的。

定位问题避免二次损害，当某个看似难以捉摸的难题出现时，本能多是重启，尽快让系统恢复正常。虽然这样的方式常常可以解决问题并且起效神速，但同时也极可能把状况推向使人难以置信的恶化深渊。问题排查手段包括从新启动不稳定系统、尝试自动记录数据库、文件系统修复等等，这些方式每每确实能搞定难题并让系统重回生产轨道，但同时也没准致使数据恢复努力付之东流，毁掉肯定问题根本缘由的机会甚至大大延长关键性系统的停机时间。保留现场也很是重要，跟破案现场要要求现场勘察、样本采集、排查、锁定一模一样，对于难以重现问题，尽可能创造条件保留了能够用于故障重现的数据或现场。

线上环境复杂多变，虽然这一点并不能立刻解决问题起到直接做用，但坚持这种处理思路，为开发和测试创造条件，下降因难以重现的疑难故障的挂起率，最终有助于业务的长期稳定。

创建集中的数据可视平台，不至于遇到问题才开始着手分析，如果对业务没有足够的了解又没有数据依赖，就极可能在解决问题时雪上加霜。

创建沙箱影子系统，模拟复杂多变的现网环境，规避线上影响，重现或压测问题，如tcpcopy、dubbocopy等

搭建开源的日志可视方案，协助咱们去解决最后”一千米”的问题，常见如ELK、Log.io等

善其事必先利其器，常见系统排查工具perf、iptraf、netperf、tcpdump、gdb、pstack、jstack、strace，top、iotop、tsar等

……

结语

总结这几年处理问题的一些思路和经验，能够概括提炼以下几句：

收集信息，随时记录

协调资源，把控影响

冷静判断，沉着分析

大胆假设，谨慎尝试

积极总结，以备后用

运维专家或许是每一个运维人追寻的梦想，他们敏锐的嗅觉彷佛总能揪出系统故障的根本缘由。这种快速反应、准肯定位的能力源自多年来处理复杂系统难题的经验积累与我的知识储备，并且其成功很难被复制。虽然没有哪家机构愿意为其颁发认证资质，尽管如此，这仍然是你们所乐于追寻的一种“超天然”的本领。

原文来自：http://server.51cto.com/ManageDC-588028.htm

本文地址：https://www.linuxprobe.com/operation-old-drivers.html编辑：CG.JIANG，审核员：逄增宝