浅谈高质量云链接的监测与保障策略

目前市面上的公有云上云专线都有着本身的健康检查机制,经过正确设置检查周期、超时时间、最大重试次数等参数,在底层链路发生中断时,能够迅速进行业务切换,从而有效提升了业务SLA。可是健康检查只有在时间窗内连续屡次检查到状态变化后,才会进行业务切换,对于链路轻微丢包致使的业务质量降低无能为力,甚至会引发误报,引发业务状态异常。算法


本文将介绍经过云端BGP+BFD的保障手段加云下DCI网络提供的NQA+iPCA策略,为客户提供高可靠、低时延、大带宽的云链接服务的方案。网络



1.主流云厂商上云专线健康检查机制
app


下面浅谈一下两大主流云厂商的物理专线健康检查机制运维


阿里云的健康检查机制

ide


目前阿里云采用专线接入和云企业网组合的方式,实现客户IDC经过主备链路上云。用户IDC经过专线双冗余方式链接到阿里云的不一样边界路由器(VBR),IDC和VBR之间采用BGP路由协议。须要用户IDC和边界路由器之间分别创建起BGP邻居关系,并经过设置AS-Path来肯定选路权重,实现阿里云到云下IDC路由的主备保护。另外阿里云每两秒从每一个健康检查源IP向本地数据中心中的健康检查目的IP发送一个ping报文,若是某条物理专线上连续八个ping报文都没法获得回复,则认为链路中断,直接将流量切换至另外一条。性能


图1. 阿里云的健康检查机制
测试


腾讯云的健康检查机制

阿里云


目前腾讯云使用的是单物理专线上云模式,物理专线自己无保护。为提高可用性,腾讯云官方推荐使用冗余物理专线模式上云,选择两条异路由的物理专线互为备份,同时两条物理专线链接到腾讯云的不一样接入设备,防止发生单点故障引发业务中断。spa


冗余链路触发切换的方式:3d

方式一:配置静态路由,经过配置双向 BFD 实现路由收敛。

方式二:配置BGP,经过 BGP 自身的收敛机制触发切换。


图2. 腾讯云的健康检查机制



2.云链接监测与保障策略


IDC与公有云之间的数据同步通道,须要知足“高可靠、低时延、大带宽”的特色,除了公有云厂商提供的基础链路保护以外,还要求上云专线业务能根据用户不一样的上云方式,为用户提供专属的解决方案。


网络质量分析


网络质量分析NQA(Network Quality Analyzer)是一种实时的网络性能探测和统计技术,能够对响应时间、网络抖动、丢包率等网络信息进行统计。NQA还提供了与Track和路由联动的功能,实时监控网络状态的变化,及时进行相应的处理,从而避免云上与云下之间链路故障引发的服务质量下降。目前还有客户云上和云下静态路由方式进行组网,在用户侧可以使用NQA与TRACK和路由联动的方式,为用户提供链路保护。


图3. NQA+TRACK联动机制1


当网络出现故障时:

  1. NQA检测到监测地址不可达;

  2. 将监测结果反馈给Track模块,使得Track模块更改Track状态;

  3. Track模块将改变的Track状态反馈给静态路由;

  4. 路由根据Track状态判断路由项是否有效;

  5. 若是网络中存在备用路径,路由器将选择备用路径。


图4. NQA+TRACK联动机制2


简述NQA的部署模式:NQA主要部署在混合云场景中,此场景中可能存在多个不一样云厂商的多个可用区,以及多个物理专线通道,因云端的链路保护策略存在差别,为实现物理专线的总体监控及故障倒切,需针对每条物理专线开辟出独立的监控通道,经过监控云下交换机和云上的虚拟机之间的NQA信息来判断每条物理专线的健康度,NQA可与网管系统及静态路由联动,在链路出现问题时推送故障信息,同时对业务进行主动切换,下降用户因故障所受的损失。


具体部署方式以下(以阿里云为例):


1. 云上开通虚拟机做为测试主机


图5. 云上虚拟机开通界面


2. 将虚拟机所在VPC与VBR进行绑定,能够经过绑定多个VBR测试多条物理专线


图片

图6. 虚拟机与物理专线绑定界面


3. 配置云下交换机NQA数据

图片

4. 经过“display nqa results”查看ICMP类型的NQA测试例测试结果。

图片

可看到“Lost packet ratio: 0 %”,说明链路状况正常


5. 故障通知与链路倒切


NQA实例状态可经过snmp trap与网管系统联动;同时,做为对云端BGP+BFD的补充,在云下如须要根据NQA实现链路切换,可将测试实例与静态路由绑定,在链路故障时切换至备用线路


图片


数据包级别监控


网络包守恒算法IPCA(Packet Conservation Algorithm for Internet)是一种IP网络性能统计技术,基于IP FPM(IP Flow Performance Monitor,IP流性能监控)实现,经过直接对业务报文进行标记的方法,实现对IP网络的丢包率、时延的统计,达到快速、准确地进行故障定位的目的。IPCA适用于2、三层网络,能够直接对业务报文进行测量,测量数据能够真实反映IP网络的性能。


IPCA在实际使用中能够实现数据包级别的监控。当用户上云业务因底层链路问题产生丢包、时延抖动等状况时可在第一时间感知并处理,极大下降了链路隐患对业务的影响。


图片

图7.IPCA监控示意图


简述IPCA的部署模式:IPCA相对于NQA来讲更加深刻,IPCA可模拟用户真实路,监控路径上的所有网络节点,可以快速检测用户的视频、语音等业务质量,即刻定位故障发生在链路、板卡甚至端口的位置,极大的提高了运维效率。


部署过程(须要华为交换机并支持敏捷特性):


1. 部署eSight网管管理敏捷设备。


图片

图8.eSight网管示意图


  • 完成iPCA支持配置,如在设备上配置NTP时间同步、设备侧SNMP参数、使能设备告警上报网管,并使能SSH客户端首次认证功能,容许网管从设备获取数据。

  • 在网管上配置网管侧SNMP参数、发现网元、发现链路。


图片


2. 经过eSight网管拓扑界面选择不一样区域的多个敏捷设备,使能iPCA。敏捷设备及其物理直连链路,将会自动使能监控。


图片图9.使能IPCA示意图


3. 用户员能够经过eSight网管随时查看测量结果。



3.总结


世纪互联为广大的DC托管客户提供高可靠、低时延、大带宽的云链接服务,经过云端BGP+BFD的保障手段及云下DCI网络提供的NQA+iPCA策略,世纪互联可保证云链接业务SLA达到99.999%,同时,经过定制化秒级业务监控系统,用户能够实时观测本身的物理专线状态和使用状况,给客户提供“看得见”的业务保障。


世纪互联拥有全国超大容量DCI网络和丰富的公有云POP点,与各大公有云厂商均有良好的合做关系,有着二十年行业经验的资深工程师队伍将竭诚为用户提供最优质的服务。

相关文章
相关标签/搜索