简介: 阿里云的CDN和视频云产品在直播安全场景下有普遍的应用,阿里巴巴集团的淘宝、优酷等业务的直播正是基于这些产品底层能力,构建了强大的直播安全体系。这个基于阿里巴巴集团自身业务实践打磨出来的架构设计,也被众多上云客户所采用。本篇文章,阿里云产品架构师小流将与你们分享这些架构实践背后的一些思考,但愿对在寻找稳定、高效、经济的直播安全体系的开发者有所帮助。算法
阿里云的CDN和视频云产品在直播安全场景下有普遍的应用,阿里巴巴集团的淘宝、优酷等业务的直播正是基于这些产品底层能力,构建了强大的直播安全体系。这个基于阿里巴巴集团自身业务实践打磨出来的架构设计,也被众多上云客户所采用。本篇文章,阿里云产品架构师小流将与你们分享这些架构实践背后的一些思考,但愿对在寻找稳定、高效、经济的直播安全体系的开发者有所帮助。编程
分享主要分三块:
首先,对系统架构作一个总体介绍,先了解系统架构的全貌。
而后,把架构中的核心内容拆解出来,进行详细的解读。
最后,探讨这个架构的优点。安全
2020年11月4日,国家网信办正式发布《互联网直播服务管理规定》,对互联网直播服务提供者、互联网直播发布者和用户的相关行为做出规范,对一些不合法的直播行为作出了约束。新规要求:互联网直播服务,要“先审后发、即时阻断”。该规定自2020年12月1日起施行。下图的架构设计,囊括了直播内容的产生、存储和消费的整个生命周期,每一个阶段都有相应的措施,经过“防、控、封、堵”等多种方式,来确保直播安全。服务器
第1块橙色部分是内容生产安全模块。这个模块主要是对内容生产者进行身份验证,以确保内容生产者的合法性,尽量从源头上规避非法发布者产生非法内容。是直播安全的第一道防线。
第2块是审核及管控模块,对应架构图中的黄色部分。这个模块是整个直播安全体系的核心,这个模块主要对内容生产后进行检查审核,并对非法内容的播放进行管控。
第3块是播放安全模块,对应架构图中浅蓝色部分。这个模块主要是对观众身份进行验证,以确保直播内容不被别人所用,保障内容的安全性,同时,有效解决盗链问题,确保资产安全,避免资损。
上面3个模块是传统直播安全体系必备的模块,主要解决内容的安全问题,契合了《互联网直播服务管理规定》中先审后发、即时阻断的要求。咱们在实际的业务运维中发现,直播基础架构与直播的质量和稳定性息息相关,基础架构的安全也相当重要。所以,咱们把架构安全也归入直播安全体系里面来。图中金色部分是架构安全模块,在这里面有一些特殊的设计,咱们后面会讲到。架构
咱们知道,直播是一种实时性、互动性显著的互联网传播内容的形式。不一样于传统的文字、图片、视频等传播形式,直播紧密的将用户与直播内容交互在一块儿,用户自己也是内容生产的一份子。所以,颇有必要对生产内容的用户进行严格管控,进行有效的身份验证。要对身份进行验证,最有效的手段就是进行鉴权。
鉴权有多种方式。一般是经过时间戳管控有效期,经过加密算法验证身份合法性。传统方案的作法是:用户与平台协商一个密钥,将用户推流的url、时间戳、密钥等信息构成一个字符串,按照约定的算法将字符串转化成相应的鉴权信息;相关信息发送到CDN节点后,由CDN进行比对;若是时间戳在约定范围内,且鉴权值正确,则正常服务;反之,则拒绝。这种方案,须要把密钥部署到CDN。这样,除了平台内部之外,多了一个鉴权key泄露的风险。因此,在咱们设计的方案里,咱们推荐对内容安全有要求的用户,使用远程鉴权。运维
咱们看上边这个架构图。远程鉴权的方案里,用户在下发推流地址时,将按照加密规则生成的url下发到推流端。推流端请求到CDN节点,CDN节点在收到推流请求时,根据约定,经过http等方式将相关的鉴权信息,好比:url参数、UA、ClientIp等等,透传给用户自有的远程鉴权服务器。鉴权服务根据透传的信息,验证合法性,并响应鉴权结果给到CDN节点。CDN节点,根据回调的结果,进行处理。异步
固然,远程鉴权能够与传统的本地鉴权组合使用,先在本地作一层判断,再进行远程鉴权。这种作法,可有效解决推流key泄露致使的盗推,同时避免大量非法推流请求透传至远程鉴权服务器,将服务器打爆。阿里云
近些年来,因为视频业务爆发,对视频监管及审核提出了更高的要求,视频直播的识别及审核规格要升级。审核规格的升级,每每意味着技术难度和成本的增长。如何在知足业务需求的状况下,选择成本最优的智能审核方案,是每一个直播平台面对的难题。通常状况,要作严格的审核,采用1s一张的非关键帧的截图,是一个比较稳妥的作法。但非关键帧的截图,对截图服务的机器开销会比较大,即客户的使用成本会比较高。若是是大平台,流的数量很是大,全量走非关键帧截图,成本开销会很是大。所以,考虑采用差别化的截图策略,在成本和收益上,作到一个平衡,以期经过技术手段,在避免成本的浪费的同时,最大程度上作到识别不遗漏。好比:核心大主播,这类主播数量少,但重要性高,容易被人关注及攻击,走非关键帧截图;敏感高危类目走非关键帧截图;游戏直播和赛事直播走关键帧截图。这里说的非关键帧截图,是指强制1s一张截图;关键帧截图,是根据用户推流的gop,每一个gop截一张。加密
咱们来看总体的架构设计:平台主播推流到阿里云CDN;阿里云CDN,在收流后,回调客户截图决策服务;客户截图决策服务,基于历史主播评分、主播分类(好比高危、疑似、普通等)决策流的截图策略,并肯定截图周期频率,下发到阿里云截图服务;阿里云截图服务,根据决策回调,对流进行截图;对于客户截图决策服务没法决策的流,阿里云截图服务会根据流的属性分析来自动决策(好比:在流刚入系统时,进行安全的非关键帧截图,后续解析发现视频流的关键帧,符合关键帧截图条件时,切换到关键帧截图)。客户审核服务实时拉取阿里云截图并审核,而后根据审核结果,实时进行处理。若是是高危的,调用阿里云流封禁接口,实时封禁主播推流,同时更新截图决策服务,标注主播违规标识,便于后续的截图决策。疑似的,更新截图决策服务,标注主播疑似违规标识,调整截图策略;普通的,则不作处理。url
截图审核目前也有不少基于AI的智能审核能力,能够大量节省人工审核的成本。阿里云也有相应的产品,能够作集成。
除了截图审核外,经过标准的录制服务,录制直播内容,并进行存储,结合截图审核,能够进行人工的二次审核及审核确认,审核结果,能够同步到决策服务,进行策略的干预和更新。
内容生产安全和内容审核管控是从内容的产生和管理角度去解决安全问题,这两个是直播内容安全的基础。可是在一些一旦犯错就会产生巨大影响的场景下,须要有更严格的管控措施。这就要求咱们在播放侧,也须要有一些安全措施来加以保障。好比一些敏感内容或者大型活动的直播,这类内容的关注度超高,一旦内容审核有所遗漏,哪怕只是一帧画面,也会产生巨大的舆论影响,形成播出事故。对于这种场景,推荐使用阿里云直播产品延迟播放的能力,给审核以足够的时间进行逐帧确认,确保播出安全。延迟播放在平常一些须要确保时效性的场景下是不适用的,于是延迟播放的能力须要能细化到对直播流粒度的管理。固然,有一些业务场景,好比部分用户须要实时,而部分用户须要延迟,也能够采用延迟播放来知足。
播放安全还须要具有经过技术手段避免资损产生的能力。资损有两类,一类是盗链,即非法用户经过非法途径播放内容。盗链每每会形成直播内容泄密,致使正常业务受到影响,使得平台花费大量资源制造的内容产生的价值大打折扣。更可恶的是,盗链产生的流量费用,每每还须要平台承担。对于盗链,主要的管控措施,就是进行鉴权。基础的鉴权,好比ua、referer、时间戳、md5等能解决掉一部分盗链问题,可是盗链和防盗链跟安全的攻防同样,有来有往,须要不断的更新或者升级防盗链能力,才能有效的遏制盗链。所以,咱们比较推荐采用远程鉴权的方式来作防盗链。拉流的远程鉴权和推流的远程鉴权相似,这里就再也不展开了。不管是基础鉴权仍是远程鉴权,都是在拉流接入时候验证身份,并不能作到万无一失。DRM是另外一种更高阶的防盗链技术,这种技术主要是对视频帧逐帧加密,在播放端再解密。DRM的防盗链效果更好,但须要有比较强的视频处理的技术能力。
另外一类资损,是对不在播的内容作了错误的资源位推荐,影响用户体验,形成推荐资源的浪费。这类问题,主要是对热门主播的直播状态管理不许确形成的。咱们推荐的作法是将直播的业务下播和真正的CDN下播结合起来,经过CDN的关播回调,来确认是否直播下播,对于CDN已下播,但直播间未关闭的,则关闭直播间的相关逻辑。其作法是,当用户的直播管控中心收到业务关播信息,则查询CDN的关播信息,若CDN显示流还在线,则调用阿里云封禁服务,进行断流。另外,直播管控中心定时从CDN同步流在线状态,对于流已不在线,但业务关播仍显示在线的,超出预约时间的,则关闭直播间相关逻辑。为了确认流状态更新的安全,避免接口泄露,被有心人利用,咱们也建议回调作鉴权,只有经过鉴权的回调,才能采信,接受更新。
上面三块内容,从全链路上都保证了直播内容的安全,但在平常运维中,还有稳定性的要求。只有在稳定有质量保证的直播平台上构建的直播内容安全措施,才是有意义的。同时,在有些场景下,好比大型活动,超高的关注度,流量洪峰的冲击,对稳定性有更高的要求。没有一个有效的架构来支撑,一旦有点风吹草动,每每会形成活动事故。咱们把这类场景衍生出来的需求,归入到架构安全里面来。架构安全,本质是要保证平常运营和大型活动的推播稳定,尤为是在大型活动时,可以承受住流量洪峰,在故障时,有快速调整和恢复的能力。
在技术上,主要依赖全链路灾备来实现。首先是传输链路容灾:CDN直播的推拉流是多层架构,CDN内部传输具有故障自动切换的能力,当检测到某条传输链路有问题时,自动切换到另外的链路上,生效时间秒级。其次是多中心容灾,阿里云的架构里,直播中心是全部处理直播视频的枢纽,一旦中心出现问题,整个直播将受到巨大的影响。阿里云的直播中心自己是高可用架构,基本上能够知足平常的稳定性要求。在高可用架构的基础上,采用多中心融灾的方案,解决单一直播中心故障形成大面积直播中断的问题。须要说明的是,多中心容灾的成本较大,建议在大型活动等特殊场景下再启用。
除了上述传输层面的全链路容灾,咱们还推荐采用主备合流的方式,来确保架构安全。其作法是,将传输融灾向下延伸至推流端,推流方从不一样区域或运营商推多路流至CDN,CDN在直播中心进行合流,选择其中一路对外分发,当该路流出现异常时,可秒级切换至另外一路流,这样能够作到用户切换无感知。
上面详细介绍了总体的系统架构,那么为何要用这样的架构?这样的架构有什么优点呢?咱们来看:
首先,从前面的介绍能够看到,整个架构的每一层,都有强大的鉴权能力。咱们推荐的远程鉴权,优势尤为明显,由于key是直播业务方本身保管的,不须要给第三方商业CDN部署,鉴权算法也不须要同步给第三方,减小了暴露的风险。远程鉴权能够根据业务状况及时调整,有更好的灵活性。也能够针对推流和播放,实现不一样的策略,好比:推流用同步鉴权,保证核心内容安全;播放用异步鉴权,保证数据安全的同时,不影响播放秒开;重点流,鉴权服务能够自助设置特殊策略,多重保障。另外,阿里云直播CDN产品,具备业界领先的边缘编程能力,基于该能力,能够快速实现鉴权的自定义。
其次,咱们推荐的审核管控架构,是经济且高效的方案。经过这个架构,能够作到成本与收益的平衡。管控粒度能够到具体的流,很是的精细化。当出现异常时,能够秒级对直播信号进行阻断,风险控制能够说是很是及时、立竿见影。截图审核、录制审核和延迟播放等多种审核管控机制,逐层的筛选和控制,让非法内容无处藏身。
最后,咱们提供的整个直播基础架构,具有全链路的灾备能力,容灾能力强。阿里云边缘云具有国内领先的CDN能力,经受了多年双十一、世界杯等大型活动的洗礼,在应对大流量突发上有丰富的经验。完善的内部监控,能够在故障发生前提早排除隐患,秒级生效的故障切换能力,能够作到观众无感。基础架构稳定了,在流量洪峰来临时,更可能是弹性资源的快速补充,阿里云的资源储备在业界是首屈一指的,快速的资源建设能力,能够从容应对任何的流量洪峰。
原文连接本文为阿里云原创内容,未经容许不得转载。