科技云报道原创。数据库
混合云趋势下,数据中心的网络流量监控正在变得愈来愈复杂。编程
据咨询机构Enterprise Management Associates调研显示,在企业上云以前,大多数企业已经采用了4-10个工具来监控网络并进行排障。当多云环境和混合IT架构来临时,网络复杂程度成倍增长,传统的以设备为中心的网络监控工具,开始没法知足云环境所需的可见性,而企业也很难把愈来愈零碎的网络监控工具融合在一块儿。安全
那么,混合云下的网络流量监控到底应该怎么作?对于采用了多云环境的企业而言,是否存在一种基于“全景”的网络监控解决方案,可以让复杂的网络环境变得易于管理呢?服务器
** 网络
暴涨的虚拟网络流量,缺失的全网流量监控**架构
一直以来,网络流量的采集和分析,是企业数据中心基础设施不可或缺的监控手段。经过对网络流量的深度分析,企业可以更好地定位网络故障、优化网络和业务性能指标。运维
然而,自2019年以来,来自金融、电信、IDC等行业的一线从业者,却对“云环境下的网络流量采集”这一课题,保持着集体性的高度关注。对于这些IT水平走在各行业前列的大型机构来讲,一个老生常谈的网络流量监控领域,到底出了什么问题?机器学习
在过去,国内企业数据中心广泛采用传统三层IT架构,对网络流量的监控,主要是经过网络物理交换机镜像来获取业务交互的东西向(相对于数据中心出口的南北流量而言)流量,而后将采集到的流量给到分析工具。分布式
随着企业数据中心架构逐渐云化,网络流量的采集和分析随之发生了巨大的变化:云计算环境下,部分东西向的流量再也不通过物理交换机。同时,虚拟机的上线、下线、扩容、迁移、切换等操做频繁,均为自动化实现,而传统的静态镜像没法跟随虚拟机实现同步的动态部署,也就没法采集到所需的流量。换句话说,传统的基于物理交换机镜像的网络流量监控方式,在云环境中开始失效。工具
此外,云端暴增的虚拟网络流量,也让传统的镜像监控方式难以承受。据艾瑞咨询《2020年中国数据中心行业发展洞察报告 》指出,云化推进数据中心向大规模机房演进,目前数据中心东西向流量已经超过南北向流量。在传统镜像方式下,大规模的东西向流量经过物理交换机端口被引向虚拟机或服务器进行集中处理,因为对端口消耗过大,严重影响了网络设备的性能和稳定性。
值得注意的是,混合云环境下的网络架构更为复杂,想要基于企业现有的监控工具实现端到端的诊断,几乎成了一个不可能完成的任务。在混合IT架构下,企业云数据中心可能包括OpenStack、VMware、裸金属、容器等异构IT资源池,涉及业务区、互联网接入区、外联区、DMZ区等多种网络区域划分,网络环境正在变得愈来愈规模巨大、层级复杂且多变。
从企业现有的网络监控工具看,不管是日志管理、网络性能管理、应用性能管理等工具,仍是云厂商提供的流量采集和分析工具,都是各自为阵,没法为企业梳理出完整的业务流量访问路径,来实现基于混合IT的全网流量监控,更不用提在多云环境中能掌握全局化的、精细化的网络管理能力。
据Forrester调研报告显示,12%使用现代基础设施监控工具的受访者表示,他们仍然难以得到端到端的可见性和扩展性以支持整个企业网络运维。这种局限性,随着企业数据中心云化进程的深刻,暴露得愈发明显。
愈来愈多的企业意识到,在混合云环境中实现全网流量监控,并非一件轻松的事情。
**
企业IT历史包袱下,全网流量监控改造之痛**
云环境下全网流量监控的缺失,让企业如鲠在喉。大型金融机构、电信运营商、IDC运营商,以及采用了混合云和云原生技术的行业头部企业,都在急切地寻求解决方案。
然而在企业IT历史包袱下,改造之路何谈容易?
从建设的角度看,企业通过多年的信息化建设,积累了大量的软硬件IT资产,并造成了较为固定的IT管理方式。企业更多考虑的是,如何在保持现有的网络设备投资和监控方式的基础上实施改造。这就要求新的网络解决方案,可以与现有的IT软硬件设备和监控工具无缝对接,并尽量轻量级的部署,不干扰现有的生产环境。
从部署的角度看,云业务带来了大规模的、弹性的虚拟网络流量,那么云环境下的流量监控方案也须要随云而动,一方面可以在IT异构环境中灵活部署,并随着虚拟机、容器等资源的实时变化而弹性伸缩;另外一方面,也须要下降对计算、存储、带宽等资源的占用,不能影响现网中运行的业务。
从安全的角度看,大规模的部署、灵活的虚拟网络变更以及开源组件的应用,都会给内网安全带来隐患,所以新的方案须要考虑安全策略的自动化管理,以保证现有的安全策略被正确执行,知足企业上云安全合规的要求。
从业务的角度看,网络流量监控曾经只是IT部门的运维工做,现在却成为运维、安全、业务审计等多个部门共同的关注。不管是网络故障排查、云端网络告警,仍是基于业务视角的网络诊断,都须要对全网流量进行采集和分析。如何针对每一个部门的不一样需求,对流量进行“统一采集、屡次分发消费”,避免“烟囱式”建设和重复投资,也成为企业考量的关键之一。
整体而言,企业对于全网流量采集方案的要求很是高,除了部署的低侵入性、高灵活性、高性能及安全性,还看重采集平台的开放性。
反观目前市场上大多数的解决方案,还是基于物理交换机镜像对流量进行集中处理,或基于虚拟机大规模安装代理进行流量采集,不只对现有设备的性能影响太大,也没法适应云环境下的灵活多变。这是因为传统网络厂商或虚拟化厂商,通常基于自身的软硬件设备提供一体化的解决方案,既难以与其余厂商的产品进行融合,也缺少创新的意愿。
混合云趋势下爆发的全网流量监控痛点,正在转化为国内大中型企业云化进程中的新需求,而这一市场尚待破局。
从网络黑盒到全网监控,行业巨头的云网流量采集探索
刚需之下,市场先行,一些技术领先的行业巨头们已走在了传统解决方案的前面。据不彻底统计,目前国内已有超过30家企业级数据中心部署了云环境流量采集系统。
那么,这些巨头企业究竟是如何解决云网流量监控难题的呢?咱们不妨来看几个表明性的案例。
l 民生银行:金融监管下的云网流量监控
在民生银行,很早就开始实施云数据中心的转型升级,业务已成功上云并稳定运行。为了响应国家金融监管政策,保障云数据中心的网络安全、交易监控安全,2019年,民生银行引入了云杉网络DeepFlow虚拟网络采集可视化与分析平台,以解决云环境中东西向虚拟流量采集的各种痛点问题。
与传统的网络流量监测方式相比,DeepFlow的优点在于,部署方式简单,无需维护独立虚机。因为DeepFlow采用宿主机模式,即经过在云环境每台物理宿主机上部署独立采集软探针,其天生彻底旁路的机制,对虚机、业务网卡、虚机交换机均无侵扰。做为宿主机上的用户态进程,具有轻量、安全、可控等优势。同时,为了规避对宿主机稳定性的影响,DeepFlow针对采集器还设置了过载保护机制。
从管理角度看,DeepFlow也是业内少有的可以同时与OpenStack、VMware等云平台无缝对接的产品,其控制器能够发现云平台中的各种资源,包括区域、用户、VPC、子网、路由器、虚拟机等,并结合流量梳理后直观地展示给网络管理员,实时掌握云环境中的流量采集和资源部署状况。
现在,在民生银行的分行云环境中,DeepFlow已与其现有的流量采集平台完成了无缝对接,不只成功实现了云环境中东西向虚拟流量的精细采集,还与云管平台造成了联动,可以对云网络进行动态的监控。考虑到生产环境的系统安全性,DeepFlow对云网的监控也能实现与生产系统的零耦合。
整体而言,民生银行是以最小化的部署,得到了最大化的灵活采集策略和安全便捷的云网流量监控。既扩大了原有的流量采集能力,又不影响生产系统的性能和稳定性,可谓云网流量采集的最佳实践之一。
l 兴业数金:金融行业云的网络安全
做为兴业银行集团布局金融科技的先行军,兴业数金早在2017年就被Gartner评为金融云领导者。资料显示,这朵金融行业云由3个高等级的金融级数据中心构成,目前已有170多家企业将业务托管在该云平台上。
做为大型行业云服务商,兴业数金对云安全的关注更为迫切。虽然云数据中心的南北向网络安全,一直是云服务商的责任所在,兴业数金在其网络监控技术上已经打磨得极为扎实,可是云内东西向的网络流量,即虚拟租户内部、租户与租户之间的网络链接和安全情况,却面临着网络黑盒。
为了从根本上保障金融云的网络安全,兴业数金选择了云杉网络DeepFlow,对东西向虚拟网络流量进行监测与分析,同时提供安全策略验证功能优化业务安全配置,以强化对云网流量安全分析的能力。
在兴业数金看来,因为DeepFlow采用云原生的分布式架构,采集器自身具有数据包处理能力,可以巧妙地利用云架构的优点,避免流量采集后的集中处理,大大提高系统总体性能。
同时,也能涵盖裸金属、虚拟机、容器、公有云资源池等多种异构系统场景,总体系统可知足大规模监控的需求,完美匹配了兴业数金规模大、场景全的行业云特征,从而可以助力兴业数金创建强大的东西向虚拟网络监控和分析能力,进一步保障金融行业云的网络安全。
l 河南移动:电信云的精细化运营
河南移动的私有云拥有多个数据中心,其资源池数百台集群规模,承载了数百个业务。做为电信运营商,河南移动的私有云建设,不只要知足国家等保2.0要求,在核心网的可靠性、高效性,以及对客户隐私保护等方面,也有着比不少行业更为严苛的要求。
一方面,河南移动的私有云内部采用网络虚拟化后,数据中心东西向流量占据了主导,传统网络监测方案已没法适应虚拟流量,系统内的网络行为彻底黑盒化;
另外一方面,该私有云面向的租户愈来愈多,从整个省公司各部门到不一样省公司之间的跨区用户,从云平台运营到租户业务运营,对云资源和流量数据的使用状况要求更加精细化。
为了更好地运营好电信云,在通过反复的测试和对比后,河南移动引入了云杉网络DeepFlow对私有云网络进行监测,实现了实时分析和故障回溯分析,很好地知足了河南移动精细化运营和管理的需求。
对电信运营商而言,现在在5G、边缘计算、物联网方向的发力,还将产生更多的网络运营场景。对此,河南移动和云杉网络也为即将爆发的实时流量采集和分析需求作好了准备。
**
混合云时代,如何打造全网流量采集的最佳实践?**
不难发现,不少行业头部企业都在云杉网络DeepFlow的助力下,建设了全网流量监控分析平台,在私有云或混合云环境中实现了精准高效的网络流量统一采集和分发的能力。
其实,除了上文提到的企业,平安科技等金融机构,移动、联通、电信三大运营商,及中国航信、深航货运、联想IT等大型集团企业,都引入了云杉网络DeepFlow来部署云网流量采集平台。
为何这么多的行业巨头会选择云杉网络而不是传统网络厂商合做?其根本缘由在于云杉网络用本身的技术实力和产品思路,证实了DeepFlow的的确确是对用户有价值的,是真正符合用户需求的。
例如,企业在云环境中获取虚拟网络流量的方式其实有多种,可是用户最关心的指标,如:部署对生产环境零侵扰、灵活性好、性能高等,却不多有解决方案能达到企业的标准。
云杉网络DeepFlow采用的宿主机旁路模式,在KVM环境中仅需运行一个用户态的进程,在公有云和VMware云平台以虚拟机的形式部署。当采集器工做时,所消耗的资源为1核CPU、1G内存。当采集为Flow信息时,对网络带宽的消耗不足实际流量的5%,而且采集器拥有过载保护机制,真正知足了企业对侵入性低、稳定性高且动态化部署的需求。
再好比,针对企业在混合云环境中的流量采集需求,DeepFlow凭借其分布式架构和开放可编程的特性,将采集与分析消费解耦,并与多种云平台对接,实现了大规模异构IT资源池虚拟流量的统一采集和管理。为了确保企业安全策略的一致性,DeepFlow作到了云环境采集策略自动化跟随,并经过持续的机器学习自动生成网络策略建议,在动态环境下持续执行策略。
能够看到,DeepFlow的架构设计和产品功能,天生适合多云及云原生环境,这也与云杉网络诞生于云计算时代有关。其SDN的基因与基础平台的开放性,让DeepFlow打破了传统解决方案在侵入性、性能、灵活性等方面瓶颈,同时也可以原生适配虚拟化、容器、公有云等多种生态,从而知足企业在混合云时代的新需求,而这正是传统网络厂商所不具有的特征。
随着愈来愈多的企业将步入混合云时代,各行业巨头和云杉网络共同打造的云网流量采集最佳实践,无疑也为其余企业提供了可参考的建设经验。
l 在部署上,平台建设并不是一步到位,而是分期建设,按需扩容。
随着数据中心规模扩大、IT基础设施增多而扩容,企业会逐渐将原有的物理网络监控、虚拟流量监控、安全事件监控等业务,整合到全网流量采集和分析的平台中。可是,平台建设并不是一步到位,而是基于企业现有的IT基础设施和业务需求进行阶段性的建设。
第一步,企业一般会选择KVM、容器资源池进行部署实施,以DeepFlow解决虚拟网络环境流量“黑盒”的问题。这是因为企业在传统物理网络上已具有完整的监控方案,所以填补虚拟网络流量监控的空白,并与现有的监控分析工具进行对接,闭合私有云、容器环境中的运维、业务分析工具链,成为企业迫在眉睫的需求。
在虚拟网络环境的部署取得了理想效果后,企业第二步能够选择归入更多资源池,如物理交换机、专线等流量数据,以实现对总体数据中心的流量采集能力。同时,对接网络中心、安全中心、智能运维等平台,知足各平台对现网流量数据的消费需求。
第三步,企业能够对存在公有云上所运行的Workload或实例流量进行采集,完成对混合云IT环境总体监控流量管理,实现总体网络画像、流量分发、对多平台流量数据分发的服务能力。
若是已经运行了混合云环境,企业也能够在不影响生产环境运行的状况下分批次部署实施,将DeepFlow平台所涉及的管理、监控分发平面复用在已有的网络平面中。
l 在规划上,从不一样的IT环境和网络类型出发,分区域、分资源池进行规划。
在数据中心侧,能够按区域来定义,区域内的网络流量包含可用区的物理网络流量和资源池内的虚拟网络流量。在物理网络中,采集点一般由设备厂商的监控方案实现;在虚拟网络流量采集上,可采用DeepFlow提供的各型号采集器,对接设备厂商方案的标准数据输出。
对于多数据中心、多分支机构的企业,DeepFlow也支持各地数据中心区域、各种资源池的网络流量采集,由相应型号的采集器完成。
在公有云侧,可经过DeepFlow实现公有云VPC内各种资源的网络流量采集。采集器以用户态的软件形式,部署在虚拟机、容器、裸金属设备等Workload上,支持Linux、Windows等主流操做系统。
在控制管理侧,可从控制面设计入手,解决大规模及可管理性的问题。控制器是管理控制采集器及策略下发的控制中枢,分为主控制器、备控制器、从控制器,可按照部署要求进行选择。
在多点的部署环境中,首先指定主区域(Region),主控制器存在于主区域中,为总体流量管理平台提供控制入口。除主区域外,其余区域的控制器做为从控制器,不参与主控制器选举。
在云环境、容器环境中,控制器经过对接虚拟化资源池、配置管理数据库、公有云开放API等,可实现多粒度下发采集、分发策略,更灵活、更贴近业务应用。
l 在功能上,确保平台的可扩展性、开放性和统一管理能力,实现一次采集、屡次分发消费。
在云和云原生的环境中,全部的资源包括网络资源在内,都是可弹性变化的。那么,对应的网络监控平台也须要具有弹性的、可扩展的特性。
尤为在混合云环境中,网络规模宏大且资源池类型多样,虚拟交换机采集点数量,相比传统监控规模多达几个数量级的增加。所以,可采用DeepFlow这类分布式部署来避免单点瓶颈,充分适配逻辑网络跨资源池的场景。
同时,应考虑分发的网络平面、尽可能复用已有的网络,以下降监控系统的资源开销,并基于不一样的业务视角提供网络分析的全景视图,避免多部门的重复投入,最终为企业混合云IT基础设施环境构建统一的流量监控管理平台。
在混合云时代,网络正在变得更加复杂,企业在不一样程度遭遇着虚拟网络黑盒的挑战。随着行业巨头纷纷发力全网流量采集与分析,示范效应将逐渐释放,引导着众多企业在混合云环境中应用新的网络监控管理技术,建设新一代的全网流量监控基础设施。
【关于科技云报道】
专一于原创的企业级内容行家——科技云报道。成立于2015年,是前沿企业级IT领域Top10媒体。获工信部权威承认,可信云、全球云计算大会官方指定传播媒体之一。深刻原创报道云计算、大数据、人工智能、区块链等领域。