想要实现优质高速的互联网视频服务,必定离不开高质量的内容分发网络服务,就是咱们常说的CDN,在10月13日云栖大会视频多媒体分论坛上,阿里云高级技术专家空见为你们讲解了CDN服务过程当中,数据处理、安全监测、日志分析、智能分析是如何为CDN赋能的。下面是演讲主要内容提炼:算法
目前阿里云CDN的节点的数量超过1200个,可承载的带宽能力超过80Tbps,基本能覆盖国内一半的分发要求,海外的部署也是十分普遍的。在产品方面,CDN包括PCDN、安全加速、全站加速等各类子产品,由于分析的场景不一样,因此对数据平台的扩展性也提出了更高的要求。从业务规模来看,阿里云CDN如今线上跑着百万级的域名,每一个域名的分析都要作,比传统CDN高了两个量级。如此庞大的业务,对于用户内容的分发是好事情,对数据的回收和分析,倒是一个不小的挑战。数据库
CDN的数据有三个关键字:海量、可靠、实时。浏览器
海量,CDN目前每秒钟有大几千万的数据访问,天天会沉淀出来5PB的系统日志,因此离线数据一般在EB级别,这个对实时计算和离线分析都有很大的压力;在监控这块阿里云CDN天天达到千亿级别,并且每一年CDN数据增加都在100%之上,因此系统必需要有很强的扩展性,并提早设计好各个环节。安全
可靠,CDN的数据必定要是准确的,不能有毛刺的数据。由于数据的应用场景是很苛刻的,好比计费和监控,不能出现纰漏,不能漏报误报。数据出来后,阿里云CDN还要在全球范围内调度流量,一丝一毫的不许确均可能致使很严重的后果,因此对于数据的准确性要求很高。第二是系统自己的稳定,系统各个环境不能有明显的瓶颈,系统要有足够强的容灾能力,系统的自动恢复方案也要是充分的。网络
实时,在从前,阿里云CDN是五分钟分析一次数据,不论是计量仍是计费,都以这个为标准。如今,由于有了更多的业务场景,以直播为例,若是一个主播推流断掉了,不能立刻发现的话,影响的可能就是几10、上百万的用户的观看体验。因此,在实时性上,阿里云CDN如今能作到分钟以及秒级的实时,也就是说,在整个数据的要求上来看,不只吞吐量要大,延迟也要足够低。运维
如此大规模的数据,如此严苛的要求,阿里云CDN又如何应对呢?机器学习
下面咱们看看阿里云CDN在数据收集方面是怎么作的。如今整个系统数据量化的程度仍是比较高的,不光是用户的访问数据,系统的操做数据也是能够量化的。下面是数据收集全貌图:分布式
数据来源,有两个方面,一个是左边的节点,另外一个是右边的用户。学习
先从从左边的边缘节点来看,它是从全球的边缘节点去采集和处理,上面的数据大部分都是访问、回源的日志,节点之间互相探测的日志等,在总数据中占比80%以上。这里的数据量级很是大,并且自己CDN就是分布式系统,因此阿里云CDN将一部分数据分析工做在节点上就先完成了,好比通用的流量、命中率、QPS等指标,会在节点上作预处理,同时,全量的数据也会经过流式传输往数据中心去走。优化
右面是用户数据,经过浏览器或SDK来访问咱们内容的用户,还包括系统上的用户,包括管理员管理配置、业务人员在后台对线上资源进行调配等,通常这里的数据直接经过流式传输平台SLS客户端直接发出。
在中心传输这一层,阿里云CDN采用阿里云自己的SLS产品,SLS支持对数据进行抽取、转化、分发、检索等功能,自己比较灵活,知足了ETL的场景,而且能够在上面作一些客户定制化的处理。SLS下来后,再用Blink对数据进行流式处理,它有一个好处就是中间状态能够保存,不须要应用和外部的第三方存储再作交互,可以知足数据定制化分析的一些场景。原始的访问及分析后的业务数据,最终会沉淀存储在ODPS中。用户也能够选择其余存储方式,好比能够提供文件下载功能的对象存储OSS。另外,时序数据也会存在OTS数据库中,以备实时检索。
以上的数据收集,基本上都是采用阿里云的产品,阿里云CDN的技术专家们只须要把系统串联起来,保证总体可用性便可,如此,就能将更多精力集中在数据的分析和应用上了。
在数据分析这块,离线方面会作的轻一点,作运营报表和数据挖掘。阿里云CDN更多的是作实时数据分析。这两个分析系统,会将数据最终聚集到专家系统,用于检测这些数据有没有异常,找到异常问题的定位。找到问题根源后,根据其余平台产生的数据,关联起来,用机器学习的算法作一个问题的分类。
数据分析的使用场景包括:
自动化运维,经过机器资源、线上问题的收敛,阿里云CDN目前只须要三个运维就足够了;
智能调度,实时根据大区、节点的状况,合理调度流量和进行节点建设;
用户画像,至关于给用户提供一个体检,给出当前服务的建议,优化业务;
事件中心,记录当前节点上正在发生的事件,关注网络抖动和发布状况。
左边是官网的截图,用户能够根据本身想要的维度,关注各种报表,看到CDN使用的状况。
中间是内部的监控系统,分钟+秒级监控,用于问题的复排和打标。
右边是事件的数据,显示当前整个平台的流量、事件等级和聚集状况等。
除了业务层数据,阿里云CDN和阿里云IDST联合,对CDN上分发的文本、图片、视频等内容进行鉴定,筛查涉黄等违规内容,防止IP被封。
整个CDN数据化为了驱动系统,造成下发、执行、采集、分析的闭环。
在分享的最后,空见总结道:“从业务接入层,咱们能够提供方便、快捷的接入环境;在策略执行层,咱们能够快速把操做发布到线上,达到秒级生效;在数据生产层,咱们将把全部的系统都量化起来,采集到海量、有效的数据;在决策中心层,咱们相应对数据进行收敛,只关注关键数据指标,整个是一个闭环的过程。有了数据化的系统,后面的自动化、智能化才有更多发挥的空间。”