低成本更清晰,下一代视频编码技术将如何实现这一目标?

摘要:下一代的视频编码技术还是采用传统的演进思路——在经典架构上作模块加强。

随着短视频、直播的兴起,在线视频领域用户使用时长已超过社交领域,而5G时代视频在互联网的流量占比将会增加至85~90%。面对用户对视频画质要求的不断提升,如何在有限带宽的网络环境中,实现更清晰、更低成本的视频信号传输,一直是众多视频应用企业关心的问题。网络

来自华为云的云视频服务的产品经理左雯,为你们分享华为云视频对下一代视频编码技术发展的想法和应用成果。分享的主题包括三个部分,首先是华为云视频对视频行业发展趋势的一些见解,以及这些趋势对下一代视频编码技术提出的挑战;其次从标准角度来介绍下一代视频编码技术;最后从云视频应用角度来具体介绍华为云在视频编码技术上的一些实践和探索,但愿能给你们带来启发。架构

1. 视频行业趋势

5G、云、AI 已经成为ICT 行业甚至是整个社会的发展趋势,促使整个视频行业需求和技术不断演进,推进整个视频行业不断升级。视频生命周期的每一个环节都在更新升级,包括视频生产、视频处理、视频传输和视频消费。框架

视频生产:多源数据的采集,包括超高清、VR、自由视角、3D建模和视频渲染机器学习

  • 视频处理:基于 AI 让视频处理更实时、智能和准确,包括各类编码方式
  • 视频传输:超低时延的传输,云边协同等等
  • 视频消费:智能终端的深度结合提供视频服务的最佳体验

视频行业本质是对媒体数据的处理,背后是算力、存储、网络、AI 的支撑,同时视频行业又推进着5G、云、AI 的不断前行,相辅相成!工具

视频演进带动了算力、存储、带宽需求的大幅增加。简单来看,视频分辨率愈来愈高,从高清到超高清再到8K/VR。算力增加 24 倍,存储增加12 倍,带宽增加 20 倍。这些需求经过云,也只有经过云才能获得很好的知足,实现高质量的视频体验。云原生视频是行业趋势,视频将成为云的基础服务能力。性能

前面说的是行业的总体趋势,下面说一下具体场景。互联网视频发展已经历了两个阶段,第一阶段从08 年到13 年,以长视频VOD、点播观看为热点;第二阶段,从13 年到19 年,也就是去年,其实还在延续,以直播、短视频为热点;第三阶段,也就是下一代,会以什么为热点? 咱们认为由于5G、云、AI 的推进,视频将进入实时互动、VR/AR 时代。学习

视频新玩法提出新诉求,互动视频方式从IM 向实时音视频过渡。直播连麦、主播PK、直播带货、视频分发方式的升级,百毫秒级超低时延下一代视频RTC成为趋势;VR/AR,360 度视角沉浸式体验革命,用户从看视频向玩视频过渡,体验提高的同时,视频传输能力从兆级向十兆甚至百兆级单流带宽;云游戏带来游戏行业变革,十毫秒级别时延要求,推进媒体处理能力从云上向边缘迁移。优化

RTC 实时音视频会成为5G 时代基础设施的核心控制点,RTC 应用很普遍,它的市场年增加率超过30%,并且这项技术不只能赋能直播、游戏等泛娱乐行业,更能在在线医疗、教育、金融等大视频行业渗透。编码

现有的实时音视频市场正处于爆发期,玩家不少,但因为它是非云厂商,难以持续发展。缘由之一是它的技术门槛比较高,特别是像音视频编码或者整个RTC网络的构建,另外一点是目前各家均采用私有协议的方式接入,各家互通、客户的自由切换都比较困难。在RTC 业务产品上,咱们认为音视频编码处理将是各家构建技术壁垒和性能差别化竞争力的关键之一。url

另一个应用场景就是Cloud VR,咱们一直认为VR 是5G 技术发展下的关键场景。VR 发展是一波三折的,但在目前来看,以前碰到的一些问题正在逐渐改善。从终端的角度来看,以前的终端很贵,可是目前千元终端机已经逐渐来临,并且体验也会愈来愈好。除了设备终端,VR 此前还面临内容缺失的重大问题,而VR 直播很大程度上缓解了内容缺少的问题。

虽然困境在逐步改善,但VR 目前还面临着新的问题。互联网VR 业务很难造成商业闭环,主要缘由在于VR 业务带来了收入增长,但与此同时带宽成本增长更多,VR 追求的高质量体验须要经过更高带宽来实现,高带宽势必会带来高成本,而高成本就会致使商业没法闭环。

在这样的前提下,不少玩家都会经过下降体验来开展VR,好比说内容采用4K 如下,码率采用10 兆如下,终端采用卡片机来体验VR,虽然这样能够将VR 的业务打通,但体验效果是不好的,也致使付费用户很是少,产业发展比较缓慢。因此在VR 的发展上,咱们认为经过视频压缩编码以下降带宽是关键,是能够帮助实现商业闭环的一个关键要素。

从前面讲述视频行业趋势不难看出,用户体验升级、视频产业升级、商业成本等驱动着视频全方位升级,分辨率从高清到8K,帧频从30 帧到120 帧,视场角从不到90 度到360 度,从SDR 到HDR 等,这些参数升级推进着视频压缩编码技术不断演进,追求压缩比是永恒不变的!

另外,前车可鉴,HEVC/H.265,实际上是很优秀的编码技术,但由于前期不友好的专利政策,市场占有率一直不高于13%。还好目前有所好转!整个行业急需压缩比更高、生态更完善、专利政策更合理的视频编码技术。

提高压缩比有两条路线,这也是各厂商正在作的:

标准技术路线,做为基础内核,H.26六、AV一、AVS三、AI编码

非标技术路线,依赖基础标准,结合人眼感知特征,感知编码、内容编码、ROI 编码

2. 下一代视频编码技术

下面将从这两个角度来介绍华为云视频在下一代视频编码技术上的一些工做。这些技术得益于华为2012 媒体技术院全力支持。

2.1 下一代视频编码标准技术

从上图能够看出,下一代的视频编码标准大概分为三个阵营或者三个类型:

国际标准:由MPEG、VVC联合推进的像 VVC/H.266还有 EVC

国内标准:国内标准组织正在推出或已经推出的 AVS3 的 phase一、AVS3 的 phase2,二者主要差异在于AVS3 的第1 阶段标准瞄准H.266,第二阶段的标准则是瞄准将来, 可能会加入一些智能编码的技术

谷歌牵头的AOM联盟推出的 AV1,是一个开源技术

下一代的视频编码技术还是采用传统的演进思路——在经典架构上作模块加强。在H.266CFP 时,华为联合其余几家公司提了P41 提案,在PSNR 和MOS 评估方面都是排名第一,这个提案也是后面的基础。华为在VVC 里的核心专利数量已属于第一阵营,这是一个了不得的成就,也说明了国内的视频压缩编码基础研究实际上不弱于欧美传统的公司。

以VVC 为例,对其新增的加强工具进行盘点。纵轴是每一个工具的压缩收益,横轴是每一个工具编解码复杂度,编码复杂度的权重可能会更高一点。VVC 在块划分、帧内预测、帧间预测、熵编码、变换量化等多个模块上进行了加强,其中主要的加强是帧内、帧间预测、块划分、滤波的加强以及机器学习工具演进带来的收益。VVC 暂时没有引入深度学习这一类编码工具。

图中还有三个用红圈标出来的工具,这是VVC 中公认trade off 比较好的三个工具点。蓝色的是ALF,这是你们比较熟悉的自适应环路滤波,其实它在H.265的时代就已经有了, H.266 将它引入标准中;绿色的是仿射运动预测,这个主要是由华为提出的;橙色的是量化技术。

EVC 标准的提出某种程度是由于H.265/H.266的专利政策不友好,有可能致使H.266 的落地都比较困难。MPEG 但愿能经过一个新的专利友好的标准来推进落地,同时也促使改变H.26六、H.265 的专利受权政策。EVC 由华为、三星、高通等共同提出推进,华为在这里面加入了不少技术。在标准立项时指望它比H.265 的压缩性能提高20%,实测在4K 娱乐视频上相比H.265 压缩效率提高达30% 以上,目前已经进入了最终的标准投票阶段。

AVS3 是国内提出的标准,它的phase1 是瞄准H.266 标准的,而且在2019 年3 月份就已经制定完成率先推出,在2019 年9 月份,华为海思也同步推出了AVS3 8K 的解码芯片,AVS3 相对H.265 性能提高了20% 以上,而且针对娱乐视频和监控视频作了不少针对性的设计,性能上还可进一步提高。

H.266 实际已经基本定稿,它的压缩效率在4K视频场景下相较于H.265 能提高40% 左右,其解码复杂度相对提高60%,目前看最大的问题仍是专利政策不够透明,并且专利费可能比较高,推广节奏可能相对比较慢。

EVC 也基本定稿, 并且其压缩效率也能提高30% 左右,解码复杂度相对H.265 增长60%。其专利收费可能相对比较低,第二是他的专利收费比较透明和明确,目前主要依靠三星、华为、高通来作产业的推进和生态的构建。

AVS3 在2019 年3 月份推出,在性能上仍是有保证的,压缩效率可以提高25%,复杂度增长相对较低,其专利收费也是比较低的,正经过互联网等行业作产业的推进和生态构建,目前实际上有不少联盟和公司正在作推进,咱们也但愿AVS3 尽快落地。

表格中没有列举AV1 的数据,这主要是由于它和其余三个标准不太同样,AV1 开源软件其实是瞄准商用化去作的,你们也比较清楚其压缩效率和解码复杂度。AV1 有个很大的优点就是没有专利费,这是AOM 联盟的承诺。在产业落地方面AV1 作的很好,生态构建走的较前。

2.2 AI编码

下一代视频编码标准还有一个趋势就是AI 编码,这一块实际上从HEVC、VVC 标准制定就有提出,但由于考虑计算复杂度以及AI 硬件普适性,都暂时搁置了。但这是个技术趋势。

AI 编码包括两个演进思路:

第一个是全新架构,相似于图像编码,实际上AI 的图像编码已经取得了不错的成效,谷歌牵头的AI 图像编码技术都已经获得了很好地应用,但针对视频中的应用还在探索过程当中。所谓的全新架构,就是不用传统架构,视频进入黑盒后会得出一个压缩过的视频,这个视频可能没有块划分,也没有各类其余的方式,它的压缩效率会很是高,但这一切还处于研究的过程当中。

另一个思路是基于经典架构,对每一个架构里的模块作加强。例如针对块划分、变换、矢量量化、帧内预测作不一样的AI 网络适应和加强。实际上华为也在作这方面的研究,将来可能会提出一些AI 编码方面的论文或提案。而且咱们认为AI 编码的这两种思路,最终将是融合设计的过程,不会呈相互孤立的状态。

3. 华为云视频应用和实践

3.1 云视频简介

上面简单介绍了下一代视频编码标准技术,下面介绍一下从实际商用及非标角度,介绍一下华为云视频在视频编码技术上的应用和实践。

首先介绍一下华为云视频,华为云视频是从2017 年开始构建的,目前包括两大类业务,一种是比较传统的直播、点播、媒体处理以及监控业务,另外一种是整个行业正在新晋的服务,好比RTC、VR/AR 以及超高清直播。华为云视频面向不少的场景,例如娱乐直播、短视频、在线教育、企业直播、4K 直播、4K 制做等等,咱们致力于帮助行业客户、伙伴、开发者、ISV 快速上线应用,并帮他们构建差别化的竞争力,实现商业闭环。这里须要重点提一下RTC,RTC 是华为云视频对下一代视频的理解并做出了实际的推进,针对RTC,咱们重点构建超低时延、音视频质量等差别化竞争力。

3.2 视频编码技术

3.2.1视频编码框架

结合今天的主题,下面重点讲解华为云视频在视频编码技术上的一些工做。这些技术得力于华为2012 媒体技术院全力支持。编码内核采用了一个标准的编码器,相似于前面提到的H.26四、H.26五、AVS三、H.266 或者EVC 这一类,在这个编码内核的基础上,咱们面向不一样的场景作了不一样的编码技术的优化和实践。好比 面向RTC 实时音视频场景,采用低时延编码技术;面向VR 场景,采用FOV tile 编码;面向多视角场景,采用空间云边协同编码;面向监控场景,采用智能语义编码;面向直播、点播,采用感知编码和画质加强等;另外,华为云视频借助鲲鹏、昇腾两大专有硬件,加速视频编转码效率。鲲鹏主要面向CPU 这类计算,昇腾主要面向AI 方面的加速。

3.2.2标准编码内核

接下来分别介绍一下视频编码的技术,第一是编码内核,华为云在商用编码器上面也有不少的技术积累。好比说近几年在MSU 的大赛上,HW265 编码器连续两年得到多项测评的第1 名,今年咱们也会向MSU 推出新的编码器。

3.2.3 高清低码

第二个技术是高清低码,高清低码目前在各个厂商或者商业领域里是你们比较默认的技术,也就是说在基于标准编码内核的基础上,能下降码率的同时保证主观质量没有降低,但实际上高清低码理论可行性是现有视频编码是基于香农定理,它的率失真模型都是连续的,可是人眼视觉模型是阶梯性非连续的,在这个阶梯上存在一个降码率的空间。

高清低码通常状况下包括三个模块:
第一是基于人眼 JND 模型,就是说如何找出JND;
第二是基于 JND去作感知编码;
第三就是经过感知编码来控制标准编码内核输出,在主观质量不变的状况下大幅下降码率。

华为云视频在这方面作了不少的工做,目前针对不一样的应用场景,能达到30~50% 的码率下降。

高清低码技术如今也走到了一个瓶颈期,原有高清低码的考虑仅来源于编码与传输信道,随着AI 技术的发展,是否还有进一步的发展空间?华为提出了一种新的思路:在原有的率失真模型上,加入一个接收端(解码端)复杂度的因子,也就是在发送端主动退化,把它经过时域或者空域的下采样变成一个相对数据量比较小的视频,这样作使得编码的码率相对更低,达到有效下降码率的目标。经过一些辅助信息再加上低码率、低分辨率的编码码流,在接收端经过AI 技术进行超分、插帧或者是加强,将视频还原,如此整个链路上传输的码率会大幅降低,咱们初步试验发现至少能下降60% 以上的码率。

3.2.4 超低时延编码

RTC 场景是咱们面向下一代视频产业重点打造的服务能力,RTC 场景下主要是超低时延的编码,咱们提出了一个综合的超低时延方案,好比编码和渲染联合优化、编码的内核以及分层编码和信源信道协同等技术手段,面向不一样的实时场景会作不一样的组合或者应用,咱们初步试验发如今1080P 这种场景下进行编码和解码,总体的时延能达到十毫秒级别。

3.2.5 VR FOV编码

面向VR 场景,特别是面向360°场景,咱们提出来FOV TWS 的编码技术。这个技术原理是将高分辨率的全景视频分片,多个FOV 的小分片加上一路4K 的背景流,这样4K 终端的播放器就能经过相应的视角FOV分片和4K 全景背景流实现8K VR 全景视频播放,同时还能保证MTP,不会出现眩晕感。该技术已经写入OMAF 的标准。总体体验上也获得了用户的承认。

3.2.6 智能语义编码

当面向监控场景的时候,咱们提出了一种智能语义的编码,主要经过背景建模加上视频内容和运动分析,再加上端侧的一些实时超分、插帧来构建智能语义编码的方案。监控场景的画面每每有不少细节,各类机器分析的识别率不能下降,若是压的太狠,识别率可能就会降低。初步的原型结果显示能作到在人和机器的识别率都不下降的前提下,达到70% 以上的码率节省。

3.2.7 空间视频云边协同编码

另一个技术是空间视频编码,所谓空间视频就是自由视角或多视角,这也是之后技术发展的一个方向。人们再也不知足于一个固定视角视频观看,但愿多视点或者自由视角的观看视频。在空间视频的编解码当中,咱们提出一种云边协同编码,经过这种编码能够在边缘很是短的时间内按需动态的生成任意时刻的切换流,大幅减小通常方案中切换流的码率,初步试验发现至少能下降60% 左右的带宽成本。

3.2.8 AI视频加强

视频质量、视频码率时视频产业最关键的两个指标。前面讲的技术,无论是标准的技术、仍是非标的技术,都是追求在同等画质的前提下,如何下降码率。
硬币的另外一面则是,在同等码率下,如何追求视频主观体验质量。咱们在这方面也作了不少尝试,根据不一样的场景特征,基于云端、终端AI 能力,从分辨率、帧频动态范围等维度对视频进行修复、加强和重建。而且考虑真实场景中每每是包含多种混合失真的等因素,咱们提出一种面向混合失真的多任务视频加强框架,可以很好地适应不一样场景和不一样需求。

以上内容介绍的是华为云视频在视频编解码上的一些实践和探索,但愿能带给你们一些启发。谢谢你们!

本文分享自华为云社区《下一代视频编码技术的视频云应用探索》,原文做者:音视频大管家 。

 

点击关注,第一时间了解华为云新鲜技术~

相关文章
相关标签/搜索