好久没有写日志之类的文章了,来了51cto论坛这么久,从前辈里也学习了很多东西。不少实际工做中遇到的问题和处理的过程,也有必要相互学习交流,取长补短。趁如今有这个时间和机会,分享一例几天前在公司发生的一块儿奇怪的网络问题。网络
在这里简单交代一下背景,本人在某品牌4s店负责IT工做(入职一个多月),因为某些缘由,也兼顾了另一家4s店的IT维护(其实两家店都属于同一个集团,这里把前者称为A店,后者称为B店)。本人工做地点在A店,但B店设备年代相对久远,两家店加起来工做量其实也很多(主要是IT管的东西实在太多了)。运维
中午快吃饭的时候,接到通知给B店某针式打印机换个色带架(看到发来的图片是一个拆碎了的色带架,不由为它默哀),就在快下班的时候找到一个同型号的色带架,换上新的色带,在A店找台打印机测试没有问题,就打算过去吃饭的时候换上色带架再吃饭(A店饭堂还没建好,员工都在B店饭堂用餐)。ide
就在装色带架的时候,旁边的靓女忽然说上不了网,接着收到各类通知说上不了网,我当时就奇了个怪,我在装色带,碰都没碰过网络相关的东西,怎么忽然一会儿都说断网?这个时候,通常都是网管们比较头痛的时候,由于大面积的断网是比较麻烦并且紧急的,一来会影响公司的正常业务,二来各类人都会在催何时搞定,能不能搞好什么的。好了,不扯闲话,说下处理过程。学习
首先,必需要肯定究竟哪多少台电脑断网,是所有断网仍是局部断网。通过了解约有六、7个地方上不了网,因为同一时间同时断开网络,且这几个地点都不在同一个地方,有一楼的也有二楼的,因而检查了旁边几台连不上的电脑,物理链接上没什么异样(说白了就是看看是否接上各类莫名其妙的交换机),ping一下网关,发现ping不通。这时基本上锁定了是物理链接的故障,大几率是交换机的问题。可是此时也有疑问,若是交换机端口出问题,不会同时几个端口都坏了,若是是交换机总体故障,为什么24口的交换机单单几台电脑断网了(不会那么巧其余10多台电脑都关机了吧)。测试
带着疑问,拿钥匙打开了IT房的门,期间一直沉思。这里简单描述一下机房状况,因为是厂家负责建设,以前交接的IT也不清楚具体设备的配置和网线的走向,也没有权限去配置,就说之前就是这样。一个机柜放了一个路由和3个24×××换机(牌子就不说了,这个和主题没关),B店网点约100个左右,有些使用不上暂时不接入交换机,3个交换机24口均接入网线,经了解基本都会开机使用。另外因为机房已经有好几个年头了,网线和网络结构相对凌乱,最头痛的问题是机柜旁边放了一堆厚约30公分左右的网线,里面还有各类光猫、小型路由和小型交换机等设备(B店共3条光纤输入,一条做办公网络,一条做员工wifi,另外一条为客户wifi)。以前的IT也肯定里面没有网口,只不过线不够长接在地上,基本上都是wifi的线,与公司主要网络没关。日志
检查了一下几个24口的交换机工做状况,发现状态正常,这时在想是否是交换机过热(空调常常跳闸)或者cpu内存占用太高,决定重启一下3台交换机,试下可否解决问题。因为线路确实复杂,根本找不到电源插头,只能简单粗暴的拔出电源线重启,3台交换机重启后故障依旧。图片
通过简单重启交换机没法处理后,就必须用比较笨的办法,就是找出断网网点到机房的网线,这时可能有人会说,这不简单吗都会有标签的,不过有耐心看的人确定猜得出来这些线基本上都没有标签的,仅有的那些标签也不必定是对的。固然,查线不是每条都要查,这里优先找的是交换机上没亮灯的线。在一个断网点接上测线器,就到机房去逐个测试灭灯的网线,虽然灭灯的线很少,可是也有将近20个,奇怪居然找不到(期间因为收银一直在催搞好没有,客人急着要打发票,就临时接了条长网线,让她们接上着正常的网点,先解决客人的问题)!这是我在想,若是这些线在这几个灭灯的端口里,不可能8芯都不通的,除非被彻底切断?在肯定B店内部没有重大施工和破坏的状况下,我再找了另一个网点继续寻线,结果同样找不到那根线。这时我能肯定的是这两个点的网线不在这3台交换机里,我把目光转移到地上乱线堆里的几个8×××换机上,因为网线很是乱,基本找不到这些交换机的网线通往哪处,感受有些像链接入机柜的3个交换机上,有些是直接通向机房外面。抱着侥幸的心理,把那些交换机重启了遍,几分钟后,有同事说能上网了,这时我如梦初醒,仔细检查,发现其中一个接了6口的交换机,当中一根线连入了一个24口的交换机上,兄弟,找你找得可辛苦了。内存
既然问题解决了,我就想多是这个小交换机负荷太重,重启后应该能正常运行一段时间吧。可是疑问依然存在,根据反映共7个点上不了网,可是这个交换机只连了5个口,按道理说这个交换机有问题也只会有5个点上不了网,且断网的7个点在机房外面不存在其它交换机物理链接的可能,带着这个疑问,虽然暂时解决了故障,但没法释怀。路由
看到你们能上网后,就着手处理一些没弄好的小问题,结果没过多长时间,又报告说没法上网,并且仍是刚才那几台电脑。因而回到机房,仔细检查那个接了6条线的交换机,链接到24×××换机端口上的指示灯正常,再把这个8×××换机与24×××换机相连的网线拆下来,用测线仪测试发现8芯都通。这时我基本能够肯定是那个8×××换机的问题了,因为没有多余的交换机做备用,因而不假思索地让行政部同事去申购一个交换机,就在她离开办公室的瞬间,我脑里忽然一想,还不必定是那个交换机的问题。it
我说,先等一下,我再肯定一下是否是那个交换机的问题。因而再回到机房,在那个交换机(交换机A)旁边拆下另一个8×××换机(交换机B),连上刚才的那根级联网线,再接入那5根故障网点网线。这里你们应该知道,若是是交换机A有问题,此时理论上那些电脑能上网的,反之,若是依然没法上网,那就和交换机A无关。在我叫停申购返回机房的瞬间,我就大概想到不是那个交换机的问题,结果也如我所料,换了交换机B问题依旧,若是非要说交换机B也有问题,这显然不是一个负责任的IT所为。
若是看到这里能准确找到故障缘由的,应该说得上半只脚踏进了IT这个门了。其实到如今,已经离真相不远了。我当时目光已经锁定在那根链接交换机A和24×××换机的网线上,我又把那根网线拆下来,仔细检查了一下,那根线特别硬,在机房我找不到比那根线更硬的网线,连稍微弯曲都得费点劲,我从新用测线仪测试那根网线,8芯都是通的,因而我把那根线拉了一下又弯了一下,从新测试,发现第六根线(绿色线)断路。此刻,我终于找到了答案:那根线因为质地过硬(铜芯过粗),水晶头金属刀片不易压入,稍微扭动就会致使压片与铜芯失去接触,因为接触不良致使时断时续,所以就会出现上述全部问题。
因而,换了条以前接好的一条普通网线,替换那条出现问题的级联线,随即又听到能上网的回复了。
那天到那刻为止,我才舒了口气。这时,不禁感叹,作IT运维的,除了一点略懂皮毛的技术外,还须要那么一点的细致和运气。啰嗦了半天,总算把故事说完了,对能看到这里的读者,也表示很是感谢。