如今的网络工程师行业老是充斥下面这些极端现象:服务器
✔ 不少人作网络,可能作了那么久,连OSPF的场景都没遇到过。就算遇到了,也都是OSPF单区域,都没碰到过OSPF多区域。因而他们下告终论:OSPF多区域学了没用,由于没人用。网络
✔ 至于一些很高级的BGP,MPLS。想碰到的场景就更是少之又少了。不只是一些小公司接过的项目基本碰不到,就算是大公司在接一些大项目的时候,也不太容易一会儿就碰到带有MPLS标签的骨干网。因此又会有一些人说BGP其实也没啥用。框架
✔ 而一些所谓“大咖”,在各类论坛,各类视频教程中大书特书的双活数据中心,SDN,大二层,堆叠技术啥的。看起来给人一种“高大上”,“神秘莫测”的感受。可是实际上,他们可能本身也不多接触这样的案例,只能是泛泛而谈,说一些很框架甚至和实际工做相背离的东西,根本就没说到点子上。ide
我们仍是再说一个“老生常谈”的话题,那就是IP地址规划问题。oop
好比,使用192.168开头的IP地址,尤为是192.168.0.0/24和192.168.1.0/24的问题上,这是个屡教不改的严重问题。在正规的局域网包括骨干网建设的时候,192.168的IP地址虽然没有被明文规定说“不许用”,但这段地址的出现,总会拉低整个网络的档次。并且192.168.0.0/24和192.168.1.0/24会和无线设备LAN端的默认地址发生冲突。因此,一开始就让网络相关专业的学员接触192.168,这是一个很是烂的习惯。学习
固然,有一些人不会使用192.168,他们会这么设置地址。字体
虽然看起来没有192.168了,并且每一个互联地址的第三段都有了意义,好比R1和R2互联,IP的第三段就用12,R2和R3互联,IP的第三段就用23。但实际上,实验中这样使用IP地址也会给学员养成坏习惯。设计
✔ R1和R二、R2和R三、R3和R4之间就一条三层链路互联,只须要两个IP地址就够了,直接用/24的掩码去作两个设备之间的互联地址,浪费不?有人说:10开头的地址是私有地址,随便用不是吗?错!在实际工程中,就算是十、172.16—31这样的私有地址,也是有着严格的规划的,绝对是不能随便乱用的。3d
✔ Loopback 0的规划,使得IP子网不连续。这个问题可不是小问题呢!IP地址不连续会致使IP路由没法汇总,从而大大增长网络中路由表的数目。在大型骨干网中,路由表过于庞大会致使灾难性的后果。因此实际工程中的Loopback地址是要求专门用一段子网,好比10.112.254.0/24,分出254个/32的地址出来做为Loopback地址的。视频
不过也不得不说,专职的讲师,最大的弱点就是不多实战,或者是根本没有实战过。但初学者在学习网络的时候,首先面对的又是专职讲师。因此专职讲师的一些习惯,会大大影响到初学者对行业规则的认知。
本文说一个骨干网的MCE设备下面的枝叶站点,由于两个枝叶站点之间的业务IP地址规划冲突,致使两个站点之间出现时断时续的情况。当时在排错的时候,只能经过客户的TV远程桌面去进行链接,从必定程度上还增长了排错的难度。
实际上,关于大型网络(尤为是骨干网)的IP地址规划,虽然从技术上来讲难度并不大,但尤为考验管理者的耐心与细心。与IP地址规划失误,而形成的网络故障或者是后期难以延伸改造的教训真的比比皆是。捷哥可能会在之后的文章中,再挑选几个典型的案例为你们详细说明。
在本文遇到的故障中,在只有一张网络结构总图,没有标记接口和互连IP地址,并且拓扑图还有可能有错误的状况下,如何花时间找出故障源头呢?
有时候,接到网络故障的CASE还真是一件让人迷茫的事情,可能会让你前往现场的过程当中心都是乱的。有些故障很明显,一查就是少一条路由,配错一个IP地址,关了一个接口啥的,遇到上述状况的时候仍是好的。可是呢,有些故障是现象看起来一切正常,但故障就是莫名其妙地出了。最使人无奈的是,客户此时还告诉你:“咱们没动过网络啊,昨天还好好的,今天忽然就出问题了!”
不过呢,任何故障都有本身的缘由的。有一种缘由就是由“潜伏”的隐患在某一天忽然进行爆发而出现的。
那天下午三点多钟,吴雄飞接了贵阳客户的一个电话,说是一个位于陕西路的三级网点网络出了故障。这个网点是一个星期之前新建的,刚创建的时候网络都是正常的,但忽然之间网络就断了,因此须要进行一番检查。客户说的是:“这个站点还暂时未投用,因此慢慢排查就是了,TV的远程ID和密码已经发送短信,操做机上有网络拓扑图,还有陕西路站点的用户名和密码。”
通过双方的简单沟通,吴雄飞了解到的“情报”也就只有这些:
吴雄飞从客户手里获得的拓扑图是这样的:
这里列出了全部WAN汇聚设备的结构,一级、二级站点为MPLS的PE设备。
一级站点字体为红色,二级站点字体为蓝色,三级站点字体为黑色。
吴雄飞大体看了一眼这个结构图,发现陕西路站下挂在瑞金路站下方。
而陕西路站点,须要访问省中心的OA服务器,IP地址是10.100.145.19,因此,陕西路站点的VRF OA下,有10.100.145.16这个IP地址相关的路由才行。
原本嘛,吴雄飞想着,若是陕西路站点上的VRF OA内没有10.100.145.19相关的路由,或者是路由下一跳地址不对,或者是瑞金路站点上没有10.113.192.0/24的路由,这都比较好办。但问题就是:当他登上陕西路站点后,一查看VRF OA下的路由,发现有一条10.100.145.0/24的路由,并且下一跳地址是10.49.206.18,而这个地址正好是瑞金路站的地址。
此时,吴雄飞在陕西路站点上,查看路由表时发现存在10.100.145.0/24的路由,并且下一跳地址也正确。因而,他决定带着源地址去ping一下10.100.145.19,获得以下现象:
ping的结果是断断续续的,而Tracer的时候也只是到第一跳就丢包了。
而此时,陕西路站上10.100.145.0/24的路由又确定是100%正常的,因此吴雄飞判断问题确定不会只在陕西路一个站点上,而应该对陕西路到省中心之间的路径作一个全面检查。
因此,他马上拨通了客户的电话,说是须要全部PE设备的用户名和密码。
当时在贵阳的这个客户不算新客户,其表明黄腾还和吴雄飞一块儿过酒,也参加过吴雄飞这边组织的技术培训,因此俩人私交还能够。可是,黄腾这我的有点胆小,有点墨守成规了。由于,随意提供PE级别设备的用户名和密码给其余人是违规行为,而那天下午他还很忙,也没时间来帮吴雄飞输入密码。可是,若是不登陆PE设备,对网络作一个全面检查,恐怕是真的再也找不到陕西路站点的问题了。
不过最后,吴雄飞仍是半开玩笑半警告地说:“反正陕西路站点的设备我查了,也确实是没有问题了,若是你要不想完全解决问题呢,那我就真的无论了哦!”
“好,PE设备的用户名和密码我仍是不能提供!”黄腾仍是比较坚定,他沉思了一会说:“不过,我能够喊咱们现场的小伙,立刻抓取全部设备上对你有用的信息给你,你看如何?”
说了半天,对方仍是不愿提供PE设备的用户名和密码,这让吴雄飞内心面以为不太舒服。不过,对方若是能把配置信息抓过来,进行逐步查看或许也仍是有用。因此,吴雄飞向黄腾要了以下信息:
虽然,查看抓取的一堆配置信息,不如登上设备查看那么灵活和自由。并且在设备的CLI里面查看信息,可使用include,begin等管道参数进行过滤。但好歹这些配置信息都已经到了本身的电脑上,能够不用远程登陆到对方的电脑上了,并且嘛,这些配置信息还能够发送给紫竹他们,让你们来一块儿看嘛。
在拿到所须要的信息之后,已经到了下班时间。反正黄腾那边也不算太急,只要在三天以内给出答复便可。不过吴雄飞这边以为事情没有完成,内心面老是有一件什么东西“吊着”同样。
紫竹问他:“下午贵阳那边的故障是怎么回事呢?”
这句话,让吴雄飞以为是瞌睡遇到了枕头通常,他立刻就把事情的通过和紫竹一五一十地说了,紫竹笑道:“既然是网络故障嘛,那你早就应该和我说了啊,咱们能够一块儿解决。”
只要是搞明白了预期的网络路径,那就能够在沿途的设备上查看相关的路由是否正确了。
这也说明了,这种状况下,路由须要逐跳查看,一个设备一个设备的查看。这样查看的话,总能查出问题的所在。
紫竹决定从上往下看,她先查看会展城PE设备上的路由条目,但这么一看,她就马上看出了问题来了:
看到这种现象,紫竹问道:“你说过,黄腾给你说这个拓扑图有问题,这里路由显示从中华路站点过来的,是哪里有问题啊?”
吴雄飞笑道:“我认为嘛,黄腾他们作事当心谨慎,即便网络结构有误,也不该该在PE这个地方有问题啊。”
“哥哥,要拿出铁证来啊!这是你之前给咱们说的啊。”
怎么拿出铁证来证实GigabitEthernet 1/3接口下面就必定是中华路站点,GigabitEthernet 1/4接口下面就必定是瑞金路站点呢?此时在不和黄腾沟通,如何肯定呢?
答案就是,查看OSPF邻居表和BGP邻居表,也能够进行一次确认。
还好,黄腾在抓取信息的时候,仍是把OSPF邻居表也一块儿抓来了。
也不用在看BGP表了,直接在OSPF邻居表里面,看到了10.49.254.3,接口正好对应着Gi 1/3接口。而10.49.254.3这个地址,直接查看中华路站点设备抓取的信息,查看它的Loopback 接口,就正好能够判断出Gi 1/3下面就是中华路站点,Gi 1/4下就是瑞金路站点。
因而,结合刚才在会展城看到的10.113.192.0/24的路由信息,下一跳地址指向Gi 1/3接口,这显然是有问题的。
正常状况下,10.113.192.0/24这个陕西路站点的业务路由,应该是从Gi 1/4 接口学习过来,但如今倒是在Gi 1/3接口学习过来的。既然不是静态路由写错了,那就只有一种可能,中华路PE设备下方确定也有站点用的是10.113.192.0/24。
吴雄飞说:“谢谢亲爱你,你真聪明,一会儿就发现了问题的所在啊!那如今咱们就再看看中华路站点下面,看看这个10.113.192.0/24究竟是在哪一个站点下的。”
查看中华路站点下,10.113.192.0/24的路由
好了,如今的状况就已经很明确了
中华路PE站点下的中山路MCE站点,使用的业务路由也是10.113.192.0/24,与陕西路站点的10.113.192.0/24发生了冲突。因此,不只陕西路站点的网络有问题,估计中山路站点的网络也不会正常。
吴雄飞说道:“如今时间还没到8点半,想必黄腾应该还没休息,我仍是立刻答复他吧。”
不过从那之后,吴雄飞他们也再也没有接到黄腾的电话。按照他的想法是,若是客户没有再来电话,就默认认为是问题已经解决了。