从电信网到互联网,从运营商客户到行业客户。华为实时音视频团队一直以来,都用最为极致的技术与体验服务用户。基于互联网的视频通话是华为向业界推出最新的实时通讯云服务产品,产品中有哪些独到的方案与技术?重点关注哪些行业?同时做为运营商出身的华为,在互联网实时音视频与传统话音关系是什么?来自华为云核心网产品线的高级架构师左俊在LiveVideoStackCon 2019深圳站对这些问题做出了解答。
文 / 左俊算法
整理 / LiveVideoStack安全
你们好,我是华为高级架构师左俊。今天我将与你们分享华为在通讯云服务方面的技术探索与实践。做为负责此服务的架构师,我会先为你们介绍华为云的通讯云服务是如何激活商业伙伴的市场潜力。网络
华为通讯云来自华为历史最悠久的云核心网话音团队,是全球领先的实时音视频通讯基础设施设备与解决方案提供商。咱们从运营商业务出发,30年来持续专一于固移实时音视频、增值业务与VoLTE/Vo5G的技术研发与支持。架构
咱们整个团队将面向运营商的服务做为第一步,从最先于1993年成功自研华为公司史上具备里程碑意义的C&C08交换机,到2005年将IMS推向市场并已得到300+商用合同,占全球运营商话市场的35%,排名第一;再到2017年以VoLTE/Vo5G开启话音/视频彻底承载IP的时代,并帮助中移动建设全球最大的VoLTE网络……30年潜心深耕实时通讯领域,为用户奉献最佳音视频体验是咱们矢志不渝的目标与追求。市场的快速演进,对客户对技术与商业提出了更新的诉求。为此,2018年开始咱们尝试开发通讯云服务,旨在与行业分享咱们在运营方面的经验,经过实时通讯服务为行业应用赋能。运维
在运营商领域,咱们有颇为丰富的建树。例如中国移动的VoLTE服务有80%以上承载在华为的设备之上,而且咱们也打通了全球首次Vo5G通话;除此以外,咱们也负责沙特Haji活动的通讯保障——做为全球用户最为密集的公共活动,Haji可带来20倍于平常话务量的通讯需求与100倍于平常终端联接量的接入需求,其对整个核心网的流控以及可靠性来讲无疑是巨大的挑战。而华为从2006年开始就做为Haji活动提供通讯独家技术支持与服务保障,一改以前,当地运营商年年断网,服务宕机的囧境。咱们但愿将华为在运营商领域深厚的经验积累逐步运用在云服务的建设运营当中。ide
咱们的愿景实际上就是将华为在运营商领域多年耕耘而来的经验积累与技术成果运用在云服务之上,为咱们的行业合做伙伴拓展基于云的业务的无限可能。咱们但愿将多年在流控、可靠性等方面积累下来的技术成果带给客户,与此同时也把运营商的一些设备以API的形式开放给咱们的企业级客户。与客户一块儿打造最佳体验的实时音视频联接,使能运营商和行业应用。性能
华为总体是以运营商起家,从2010开始在云服务领域逐步发力。2018咱们推出视频通话服务并将这一能力开放给广大客户。学习
那么过去一年咱们作了什么?从一开始咱们是怎样去思考的?纵观通讯服务,RTC技术与行业趋势正不断变化,而视频通话行业尤其明显,各种型智能终端接入极大地扩展了市场的空间。从技术维度来讲,5G网络接入开启了全新发展契机,而包括AV一、VVC、EVC、AVS3等在内的编解码方案百家争鸣竞争激烈;随着并行计算的不断兴起,智能计算的权重也愈来愈大。测试
从行业维度来看,在线教育和互动连麦早已成为你们踊跃探索的重点,而今天我将重点聚焦华为通讯云服务在智能终端通讯领域的探索。优化
从2018年可进行语音通话的华为音箱到2019年初支持视频通话的华为儿童手表,再到2019年中发布的华为智慧屏以及如今的华为手机与畅连通话,华为专一于将实时音视频逐渐融入各种智能硬件,并为消费者提供随时随地顺畅沟通的服务体验。
在开始时咱们思考了RTC实时音视频所面临的挑战,首先须要考虑的是海量终端接入,今年咱们提出年末系统容量须达到2亿,将来三年要达到20亿并覆盖全球;除此以外,各类类型终端可接入,统一帐号体系下的各种多终端实现互通;咱们还但愿系统实际运行可靠性不低于99.9999%,同时以数据为镜,洞悉设备运行状态知晓运行细节并及时纠正错误从而优化用户体验。
从质量保证的角度考虑,首先咱们须要清晰意识到现实的网络情况,并思考如何在有限的带宽下为用户提供高质量视频通话服务,同时还要使功耗、清晰度、码率和时延四者平衡且协同。
从网络优化的角度考虑,咱们认为网络波动是一个正常现象,而缓解网络波动须要对现有的组件进行改造,从而保证用户以最优方案接入服务。
最后一样也是华为最为擅长的考虑角度就是互联互通,也就是打破数据与服务孤岛,实现全链接与全业务互联。
2.1 海量终端接入
咱们在构建系统时考虑以上四个方面,而可靠性和大容量是咱们一开始就重点考虑的,由于不可靠在网络当中是一种常态,可能出现包括光纤挖断、业务浪涌、突发丢包、防火墙拦截、DNS故障等在内的多种突发情况。应对突发危机的有效措施是快速部署边缘节点并自动选择最佳节点以处理业务或媒体,这对于整个云服务来讲相当重要。这里咱们须要考虑的是如何实现快速部署并保证系统能够进行水平扩展。
咱们给出的实现业务高可靠的设计理念是“E2E多层次多路径”。首先E2E化整为零,将对服务的拆解合理化并保证每一项服务都是可去水平扩展,接入模块可有效进行负荷分担以及最优路径接入。对于关键节点,咱们在设计时也是考虑了对于Region级别的容灾;而对于特别关键节点与核心节点,咱们会考虑跨网或跨云服务商的部署,从而使整个云服务作到全负荷分担且任意节点可用。
以数据为镜,实际上就是数据驱动下的实时监测与问题快速识别。传统运营商在设计系统时因为各个模块间彼此分离,造成数据孤岛,在不少状况下获取不到全部数据,这对运营商来讲是个很大的问题。咱们在设计这部分时采用了传统OTT,经过端测与SDK上报数据,每通话平均上传2000+的指标,系统可在5分钟内定位问题,85%的问题,可由智能运维系统AI问题库的方案,自行修复,自行解决。
安全与隐私一样是值得关注的重点。从一架构开始就严格遵循GDPR(《通用数据保护条例》General Data Protection Regulation,简称GDPR)的要求,对全部数据进行匿名化等处理。上图右侧图线展现了感知的整个过程,其中蓝色竖线表明发生了一次网络震荡。在震荡的过程当中,网络丢包、U-VMOS统计、帧率等指标异动会在第一时间被侦测到并体现出来。固然,这种侦测是基于用户级别去作的。
在设计之初咱们就意识到,面对海量用户终端的安全隐私问题,仅仅从技术上实现安全是远远不够的,而应当确保整个开发过程与解决方案的安全和可信。华为为此作出了许多努力,从开始的威胁建模到最后的安全验收测试与交付维护,包括其中的渗透测试等等。从开发人员的可信到发布过程的可信,二进制编码也可作到溯源……华为将可信植根于平常流程,实现技术与过程融合可信,极大提高了整个平台的隐私安全水平。
上图右侧展现的是咱们所作的一个安全解决方案。安全认证确保只有经过鉴权的用户才能接入,而视频通话云服务不会保存用户通话隐私;媒体端到端的加密有效确保了通讯安全,客户可使用自已信任的存储资源,来存储媒体,让客户放心,安心的使用业务;
2.2 质量保证
关于质量保证,经过分析发如今用户尤为是中国典型宽带用户的使用过程当中,接入网络上行带宽受限,普通家庭带宽留给通讯的上行带宽仅1Mbps,严重限制了家庭场景的实时视频通话的体验。若想达成一个有竞争力的解决方案,咱们必须将720P与1080P下的总体码率降到1Mbps如下。
为实现该效果,咱们使用华为自研的HW265技术(HW265是华为多媒实验室基于H.265进行全方位优化的编码技术,兼容H.265但现网综合表现远优于H.265),做为编解码器——去年和今年的MSU世界视频编码器大赛,华为HW265编码器蝉联冠军。因此从目前来看,HW265可以把720P下的码率降到1Mbps如下。除了正常的编解码以外,一些后续我会提到的先后处理也十分必要,可进一步下降码率,对于在带宽受限网络波动的场景下保证视频的有效传输相当重要。
也许有人会对H.265的兼容性有必定疑虑,这里咱们使用了诸如非对称编解码等小技巧以实现端的普遍适应性与系统可控。
除了编解码层面的改进,整个先后处理过程还能被进一步优化。这里咱们主要进行了如下实践:在发送端,咱们基于ROI的动态检测来检测人的视觉关注区域并为同一画面分配不一样码率;在接收端则是借助超分辨率,尤为是在低码率的场景下,例如将360P的视频画面投放到大屏电视上。此时若是不使用超分辨率那么电视所呈现的画面将会很是模糊,用户体验极差。因此咱们在接收端使用超分辨率的特性实施对画面质量的跃升观众主观感觉能达到720P的效果。
实现超分辨率时咱们也用了一些小技巧,例如在Y通道上咱们运用超分辨率模型而在U、V通道上咱们使用双三次线性插值从而控制算力与复杂度,而其对总体清晰度的提高实际上依然能带来一个比较显著的效果。目前在咱们内部的主观双盲测试中,ROI和超分辨率的MOS分可接近4。
网络优化的内容很是细碎,整个RTC通讯通常分为如下九个环节:采集、前处理、编码、打包、网络传输、解包、解码、后处理与显示。实际上这些步骤还能进一步拆解细化,例如“打包”包括网络适应性等,仅凭借一种黄金方式来下降整个端到端的时延显然是不现实的。一个成功的低延时解决方案,其关键在于日积跬步,从细节着手优化。
首先在采集显视阶段,时延主要取决于硬件性能;而先后处理阶段,咱们主要经过插件化架构与按照不一样业务场景动态按需加载最小插件集来下降先后处理时延。;在没必要要的场景,咱们就不使用插件,由于某些插件会增长时延。
对于编解码阶段,咱们根据芯片能力自适应选择软、硬编解码从而下降编解码时延开销,由于硬件编解码的处理速度会更快一些;对于弱网场景,准确地预测带宽相当重要。由于若是你使用FEC和ARQ就会极大提高时延,对于整个RTC的通讯来讲是比较致命的。咱们借助自研网络适应性强化学习模型,实时准确预测网络带宽;同时做为编解码的输入,下降弱网条件下JitBuff引入时延。
对于网络传输而言,转发模型必选,这就意味着MCU不可用,MCU必须转变为WebRTC。咱们借助SFU纯转发模型下降网路节点处理时延;,并基于全网QoS信息智能选择最优传输路径。
在网络传输的过程当中咱们使用智能优化算法,借助强化学习传输模型可有效提高网络带宽精准预估。上图左侧表示传统带宽预测算法,主要有如下弊端:模型固定、基于丢包与时延进行相应的响应以及参数设置依赖经验值。所存在的问题就是实际带宽和测试带宽之间的比例,能够看到其丢包率特别高且收敛时长较长。咱们与华为公司内部专门负责网络算法的团队一块儿研究,针对网络上各类各样的模型进行了模拟、训练并强化学习,从而有效缩短收敛时间与下降丢包率。采用强化学习模型后,带宽预测准确度提高20%,带宽调节收敛时间缩短1倍,带宽降低期间丢包率最大从60%降低到10%之内。这些数据可反映出强化学习模型的出色效果。
网络优化的最后一个部分实际上就是实时媒体精确导航。对于时变路由来讲,经过一个集中化大脑控制下面全部节点以及数据流向,例如从Pop1到Pop4可能通过Pop3来实现优化。每30秒作一次从新路由的计算,基本作到每一统统话都会有一个自由路径,在通讯的过程当中也能作到相应的切换而不丢包。对于最优接入来讲,首先将地理位置、用户历史QoS以及历史位置信息做为综合判断的依据,并将这些数据统一上报至中心节点,中心节点为用户判断其相应位置。固然,这里也有许多将来亟待优化的关键点,如质优终端直连与POP点间的突发丢包——目前咱们也观察到,在总体丢包过程当中,突发丢包会在15秒之内形成90%以上的丢包,这其实对于媒体的精确导航来讲没法实现动态切换,因此为解决这种突发丢包咱们将来还有许多工做要去作。
互联互通是华为很是擅长的领域,实际上就是创建一个统一的互联互通大网,其中涉及到运营商与所创建的RTC网络之间的互通以及PSTN的转换等。运营商PSTN和私有帐号体系之间如何创建转换关系,每个解决方案都有所不一样,这里最重要的就是创建资源号码的映射关系。
接下来我将与你们分享我对于RTC的将来的一些思考。
最近5G技术成为你们热烈讨论的重点,你们也热切但愿5G可以给整个RTC产业以及整个直播行业带来革新,可实际上这并不是你们理想的这么完美。
5G系里面的许多方案实际上也是分阶段推动的,包括SA和NSA阶段的部署。现阶段在国内以及海外部署的全部方案都处于NSA阶段。NSA阶段实际上就是把无线侧的空口技术彻底换成5G接入,但实际上核心网侧以及内部网络链接侧都没有发生变化。对于整个网络来讲,这并不能彻底作到5G宣称的低延时大带宽。除此以外,如上图中三大业务场景指标需求对比所展示的那样,5G下又细分了三个场景:eMBB、mMTC和uRLLC。其中eMBB就是咱们所说的大带宽,大多数消费者所使用的互联网访问就是基于这种场景,此场景在运营商端主要依赖于普遍部署而不是热点部署;mMTC和uRLLC其实是基于热点部署。你们一听到5G就说5G会给咱们带来低时延和大带宽,而eMBB相对于4G虽能下降一些时延但远称不上是显著下降,若想显著下降时延则有赖于uRLLC,可uRLLC又是基于热点部署,只能被用于一些特定企业或专业场景。因此你们须要清晰地意识到RTC与5G的新时代,挑战与机遇并存。
以前咱们提到NSA阶段下部署的5G实际上只进行了无线侧的覆盖与提高。接入侧的时延和远距离传输所形成的时延问题其实并无被彻底解决。咱们期待运营商可以在将来2~3年内解决该命题。
对于RTC来讲,挑战依旧严峻。当人们讨论5G时永远不会绕过的话题就是5G+VR/AR,而实际上人们提到的只是空口和传输时延的下降。若是串联起端到端的整个传输与处理链路就会发现,编解码所占时间占到整个端到端时延的50%以上,从编解码层面入手下降时延相当重要。
5G时代,大算力场景层出不穷,在此场景下手机性能显然没法知足大算力需求,因此其网络模型也会相应发生变化。有时鉴于手机能耗与电源管理的须要,一些正常的计算可能会被传输至云端边缘来处理,这样就造成了一个边缘与端侧联动的关系。这就会形成5G的边缘侧流量显著增大,随之咱们的整个设计模型也会发生必定变化,这也是将来咱们须要从架构和解决方案角度考虑的事情。
看过《星球大战》的同窗必定不会对里面的全息投影感到陌生,能够说全息投影是咱们追求的终极理想,但实际上这项技术距离显示还很是遥远。也许有人会说在一些舞台表演上已经看见过相似全息投影的应用,实际上这并不是真正的全息投影,而是一种被称为“佩珀尔幻象”的视觉效果。其有本身的限制条件,如四周的黑幕、使用场景很是受限等。若想实现理想中的所谓全息通讯,显示介质和辅助自由视角通行交互相当重要。咱们不能单纯地在采集端仅收集一段图像并传递到观看者端,而应该传递一个模型。例如采集一张面孔,正常图像由边缘侧进行计算以后会驱动网络上的模型,驱动所造成的模型会被传输至对端,此时观看者视角决定对端的形象呈现,且存在两种思路:
专用终端+直接模型矢量传递:深度摄像头、模型矢量传递、模型渲染。主要在端实现:计算、功耗问题要解决。
普通终端/眼镜视频采集+网络侧分析转换:模型匹配、视频->模型驱动、位姿数据驱动观看视角、FoV。对媒体诉求:超低时延转换+传递+边缘计算
这两种方案谁更甚一筹,仍是个未知数。
对于在线教育场景来讲,可达性、时延、卡顿率、稳定性与易用性是决定实时视频业务体验成败的关键指标。
在线直播中的互动性、适应性与易用性相当重要。视频通话端到端时延<300ms才能供主播与观众间进行互动。而从480P到1080P的多种分辨率也须要适配多种终端;极端网络自适应,使得用户在复杂移动网络环境中仍可以享受稳定可靠的通话体验;用户友好——不挑网络,体验稳定可靠与开发友好——高效集成,快速获取能力一样是值得关注的方面
知足两千万以上规模的智能硬件接入,可靠的技术保障不可或缺。
视频通话作为互联网上通讯的基础通讯能力,将会像空气同样, 时刻围绕在你身边,与各类线上业务结合,帮助商业合做伙伴线上服务的方式的创新、服务质量的跃迁和服务体验的提高。实现更多服务触点,知足用户全场景需求,挖掘潜在商业机会。
这是一个很大的市场,华为云.视频通话,有技术、有服务、有体验。但愿与合做伙伴一道颠覆线上服务体验,帮助其实现商业价值规模裂变。