又是好久一段时间没写什么了,此次带来了一次网络故障排查。先把背景描述一下,前一天晚上,客户的网络核心进行割接,用新设备替换老设备。核心设备的替换,天然不能大意,循序渐进的完成,而后各类测试,虽然期间有些小问题,可是都解决了,顺利结束。网络
次日,准时到现场保障,问题发生了,视频会议系统故障,视频控制器PING不通了。客户第一步固然是想到是否是核心割接致使的,首先按以下步骤来排查:ide
核心上路由表正常,视频会议的网关不在核心上,而是在另外一台核心上,和咱们操做的核心是三层互联,使用静态路由,从核心去视频系统的网关是通的,初步判断不是咱们核心割接的问题;学习
视频会议系统在另外一栋楼,到咱们这里的机房走的光纤,怀疑线路问题,观察接口发现接口正常,可是接口下没有学习到任何MAC,说明线路仍是有问题了;测试
客户说之前有一条老线路,若是目前线路没法恢复,切回老线路试试,可是老线路的走向不清楚,判断可能性不大,或者切换的时间会很长;设计
客户到其它几个楼,测试了一下视频终端,网络是正常的,全网的视频系统都是vlan900,不论物理位置在哪,因此实际上就是一个超级大的二层网络;视频
在核心机房内没法进一步排查了,决定到视频系统所在的那栋楼去检查;接口
到达机房,检查楼内核心交换机上,有一根光纤标记了视频专用,推测就是这根,登陆核心查看mac,能够看到几个VLAN900的mac,核心上到楼内各个地方的光缆有标签,两台核心作的VRRPci
最后到了视频系统设备所在的交换机,接口亮的,登陆查看MAC,能够看到,而后把这个MAC对比核心上 的MAC,发现没有,最后看一眼交换机,两对光纤,和核心上一样的颜色,一样的标签。
路由
到这一步运行我卖个关子,你们能够想一下问题可能出如今哪。it
这里插一句题外话,我常常给组员说我排错的思路,经验,案例,但愿能提高他们,可是一个案例,我说出来的时候,就会天然过滤掉不少现场的干扰因素,直接把最关键的步骤罗列出来了,其实最难的才是如何排除干扰,客观的,主观的,各类各类的。这也就致使了,我我的排错出来挺有成就感,可是一去写,去说就感受不精彩了。
好了,揭晓答案,我看到那两对光纤就感受到不对,立刻查看了STP阻塞端口,果真其中一个呗阻塞了,再看配置,被阻塞的口下有配置,正常的口没配置。把正常的口上光纤拔了,被阻塞的口恢复,系统随之恢复了。
问题来了,这个问题的表面缘由是少了配置,两根互备的线路,只有一根配置了,因此STP阻塞的接口发生变化的时候,业务就断了,再往深了分析,是昨晚的割接,替换了核心,整个大网的生成树从新进行了计算,致使两个端口原来阻塞的A,变成了B,最后的最后,其实这一切都是全网处处配trunk致使的,不少网络在建设的时候,不作三层,都喜欢搞大二层,看似方便,实际很容易出现各类莫名其妙的问题,因此从这个问题能够看出来,客户自己的整张网,从设计上都已经天生残疾了。
过程说完了,不知道大家能学到多少,排错这事确实须要经验积累,因此,不要急,多想一想为何,你就能比别人进步的快一点了。