新媒体编码时代的技术：编码与传输

时间 2019-11-22

原文原文链接

本文整理了北京大学教授马思伟在 RTC 2018 实时互联网大会上的分享，从技术、编码与传输角度，分享了媒体编码的现状与将来，以及 AVS 编码标准的技术现状。如下为速记整理。前端

欢迎访问 RTC 开发者社区，与更多实时音视频开发者交流经验。
算法

个人演讲主题是《新媒体编码时代》。这里的“新”有两个含义，第一是指新时代，技术与应用场景出现创新；第二是指媒体“新”，须要编码的材料数据改变了。
后端

我在 RTC 2017 曾讲过《视频编码将来简史》。当时叫视频编码新时代（如上图图解），革命之一是采集革命，采集的数据发生了变化，视频从标清向高清、超高清方向发展。还有其它的一些数据，包括光场、点云、神经脉冲。理论也有不少，包括传统的奈奎斯特采样、压缩感知。
微信

革命之二是计算革命，编码计算提高了不少，有 CPU、GPU、NPU，计算能力的提高使得原先因太过复杂而没法使用的算法变得可用了，提升了编码效率。网络

第三个是认知革命，数据处理有了新的方法，处理能力更强了，业界谈的比较多的方法就是深度学习。框架

基于这三个革命，编码在朝智能编码的方向发展。其实，智能编码并非新概念，80年代后期到90年代中期，业界一直在讲智能编码。不过，到如今为止智能编码还始终处于第二代。ide

今天，我从三方面讲：新媒体，咱们看到新的数据类型要编码；新技术，技术从编码、传输、跨媒体智能讲，咱们朝智能方向发展了；新应用，通常是你们说的 4K、8K、VR 这些应用。学习

1

新媒体编码时代：新媒体
优化

首先讲新媒体。不少人介绍本身专业的时候一般说我是作数字媒体技术的，或多媒体技术的。咱们要把媒体和技术分开来看，所谓的技术是计算机对媒体的处理技术。在之前“通讯基本靠吼，交通基本靠走”的年代，没有媒体，后来出现了文字，再后来，声音、视频、图像能够保存，随后催生了新的产业。接着出现了 3D、AR、VR，最后到智能媒体。总的来讲，技术催生新媒体的诞生，这是关于媒体的介绍。如今提的比较多的凡是包含三维信息好比光场、点云的媒体都统称为新媒体、三维媒体，这些不是新名词，只是如今咱们强调的愈来愈多。编码

关于沉浸媒体，在今年的 ACM Multimedia Systems 大会上，Philip Chou 提出，“Holograms are the Next Video”。在他看来，全息是下一代视频。上面有两个图，1977年的星球大战电影里，出现了光场投影，是那时候咱们最初对三维沉浸媒体的想象。右图则是2018年的想象。咱们已经想象了40多年。Philip Chou 在会上有两句话我印象很深入，一句话是“Hologram compression today is like video compression in 1988”。王田博士也讲到，今天的点云编码水平，至关于 30 年前视频编码的水平。1988 年时 MPEG 刚刚成立，当时只有 JPEG。MPEG1-VCD 是在 1992 年才出现的。另外一句话是关于流媒体的，“Hologram streaming today is like video treaming in 1997”。1997 年，国际会议在讨论流媒体技术。我想，当初讨论流媒体技术的人看到今天互联网流媒体的发展，应该是感到很震惊的。还有一句话，“若是你看到了视频的发展趋势，那么你必定会一样看到全息的趋势。” 因此，沉浸媒体是将来的趋势。

关于沉浸媒体提供的感受，主要有三类：视觉、听觉、交互。视觉要提供更高分辨率，分辨率上去以后才更清楚、更清晰。听觉方面，要高质量、三维全景声，感受比如演唱会、演奏会。交互方面，讲求低延时、交互天然。

沉浸式媒体的系统是比较复杂的，从前端采集到中间编码传输到后端显示时间，每一个模块都是相互关系很强的，每一个模块都得作好才能呈现好的效果。

相关的组织都在作不少的研究，大概能够分红上图这样几个层次，第一个层次是关于最基本的数据的表示，看到的 JEPG 图像、MPEG 视频、IEEE、AVS；中间层是关于应用，好比 VR-IF，3GPP 等国际组织都在演讲。上层是体验，用户端体验作很差用户确定不接受，包括 ITU-T、VQEG、QUALINET 等组织。

咱们今天关心的主要是最底层的编码技术表示。今天另外一场演讲中，王田老师提到了沉浸式媒体，这是 MPEG 目前作的工做标准。这些技术的应用从早先 MPEG一、2，后来到了 MPEG4，H.265 等等。

咱们今天主要说的是 MPEG-I，沉浸式媒体。上图是 MPEG-I 的发展路线图，只包含视觉相关的，不包含音频的内容。其中之一是关于 New Video Codec，还有点云，从静态对象到动态对象，以及光场，包括相机阵列等。

咱们熟悉的是手机上数码相机上都在用的 JPG。但实际上 JPEG 作了不少，其中一个是 XL，新一代图像压缩；另外一个是 PLENO，光场图像压缩。

AVS 一直都在作高效视频编码，作的是面向广播的编码。从 2002 年开始，至今已经 16 年了。2006 年成为国家标准，进展比较快，2012 年能 AVS 成为广电行标，2016 年 AVS2 成为广电行标，也是国家标准。目前在4K的超清广播应用比较多，今年 10 月作试运行，明年北京冬奥会会有 4K 的超清广播。对于 VR，AVS 有一个 HV 的工做组，有专门面向 VR 的 HV1857.9 视频标准。

先普及一下沉浸式视频的多维度属性。包括分辨率，从标清到高清到超高清，有更高的帧率、更高的采样精度，更多的模型数据，色域更丰富。

全景视频方面，视场角中的 1° 能看到 60 个像素就能够达到视网膜级别。若是是 4K ，视角是 36°，平均下来每度 100 多个像素。有时候说看 4K 就够了，不须要 8K 了，依据是从这儿来的。但实际上，8K 以后视角变得更大，也须要更高的像素。若是以这个算目前的 4K 全景，平均下来 1° 只有 11 个像素，离 4K 高清差的很远。为何 4K 全景质量差？由于自己信号提供的就不够。若是要作全景视频，按照前面的分辨率算的话，像素值至少要到 22Kx11K，彻底全景的话要 24Kx12K。计算下来数据量达到 4Gbps，只能等 5G 技术的到来。

还有其余媒体，点云、网格、光场、深度之间均可以转换处理，不止体如今数据格式上转换处理，后面编码的时候也能够作相应的融合。

刚才看到的都是比较传统的相机采集的数据进行编码，如今已经出现了另一种形式的采集，是在仿生的采集（如上图）。原理是这样的。首先，视频采集的数据量很大，尤为是运动速度很快的时候，普通的相机采集的话都会出现模糊。第二，咱们采集完这些视频再作处理，作特征的提取，进行对象的分析识别。这个处理过程与人的视觉识别处理是相差很远的。第一个问题，人眼是每秒 30 帧吗？确定不是，由于人眼的获取原理自己就和传统相机不同。那么仿生采集指的就是后端传输的是神经脉冲信号，当环境中要测那个点发生变化时才传输信号，这个原理与普通的相机采集不同。可是传输神经脉冲信号后如何进行编码，到如今也没有彻底解决。咱们能够看下面这个视频，它直观解释了传统相机采集与仿生采集的区别。

2

新媒体编码时代：新技术

如今已经进入第三代标准时期。MPEGY 有 VVC（Versatile Video Coding），俗称是万能的。AV一、AVS3，都是第三代标准。

视频编码作了这么多代标准，作编码的人会问编码效率作了这么多优化，继续作下去有没有意义？

有一个经济学的悖论：提高资源消耗效率，结果消耗的资源更多。好比，要提升煤炭的燃烧效率，后来煤炭的燃烧效率提上去了，煤烧得更多了。原理是效率支撑了更多的需求，从而带来了更多资源的消耗。带宽传送也是同样，若是咱们提高带宽，进一步提高压缩效率，全景视频、点云等新的应用就会跟着来，而后带宽消耗还会更高。从这个角度来看，须要更高效的压缩技术。

再看编码的具体技术，下图是咱们熟悉的框架，编码所作的工做很是精细、琐碎。整个工程就像手表里一个个链接的小齿轮、大齿轮。咱们的工做就是删掉其中一个齿轮或者把几个齿轮并成一个齿轮，并让表跑得更准，更省电。

在 AVS3 的时间规划上，预计明年 8 月份会发布初版，初版是复杂度和效率作的比较平衡的一版。2021 年会发布第二版，最终目标是面向8K、VR、流媒体等应用，编码效率比 AVS2 再高一倍。AVS3 的特征能够这从两方面看，传统技术 AVS 在作不少研究，包括块划分、运动预测、变换等；智能方面也有研究，，用神经网络作变化预测滤波，编码与传输的联合。

早先咱们一直作的是信源信道联合编码。咱们能够靠一些传输技术来折中编码效率，不用很复杂的编码方法就达到编码效率的提高，好比，媒体端 CDN 中存了不少视频流，不一样流之间存在关联，一句话解释就是相似于 P2P 传输式，我能够在传输中利用高层的传输支持达到相关内容的更高效的预测编码。利用这种技术能够提高 30% 以上的压缩效率。

国际标准方面，2015年10月份已经开始围绕新一代 JVET VVC 标准进行讨论，如今已经三年了。技术进展很快，编码效率相比 H.265 提高 40% 以上。今年4月份在圣地亚哥开的一次会议上，有一个环节：响应提案征集，SDR 有 22 项提案，HDR 12 项，360 全景 12 项。

下图那次会提交的 SDR 提案征集。中国从 1996 年开始参加 MPEG，前期参与的时候主要是大学和研究所，没有中国的公司。可是近年，中国的公司，好比华为、海康威视、腾讯、大疆、头条等都开始积极参与国际标准的制定，这是很好的现象。同时说明中国近十年二十年来培养了很多人才，这是咱们学校的贡献。也欢迎更多的公司能够参与国际标准，也能够参与 AVS 标准的制定。AVS 和 MPEG China 是一体的，加入 AVS 就至关于加入 MPEG China。

再看技术状况，新特点是体如今从信号处理到深度学习。这些提案里，有5个都用到了深度学习的技术，其中有关于预测的，也有关于滤波的。我会重点讲一下预测。

神经网络和编码之间的联系在哪儿呢？能够用一个比较简单的图来解释。下图是传统的变换，分解成变换系数，后来作量化、反量化，量化反量化以后带来失真。失真以后如何作一个最优的量化，使得量化的偏差最小？最小偏差范围表示成二进制的形式，S一、S2 每一个数要么是 0 要么是 1。量化决策的过程，其实是，选择 0 或者选择 1 使得整个偏差最小，这就是一个优化的问题。优化的问题就是神经网络最擅长的工做，这个工做就能够交给神经网络，帮你选择是 0 仍是 1，这是变换和神经网络的相通之处。

原来作帧的预测，选周围像素，找一个插值滤波器，使得插值以后要逼近预测的值，使得偏差最小。若是用神经网络作的话，把周围像素传过去，神经网络帮我找加权、找偏移量。计算完以后失真最小，那么网络就训练好了。之后作预测的时候，把数据送给它就自动处理，像黑盒同样。这就是基于神经网络的预测。

目前用神经网络去作变换、预测、滤波的已经有不少了，每一个模块都不少。但若是只作这些的话，仍是像玩票同样。毕竟神经网络在模式识别方面应用得很好，到了编码这边作了不少，可是尚未战胜传统编码，仍是基于信号处理这套。

如今有了新的概念，Towards Conceptual Compression。在下图中，最底部的一行原始图像，最顶部模糊的编码的。从上面的编码，一步步推理迭代，可以生成底下的原始图像，这是用神经网络来作的。我认为能够叫作概念（意象）压缩。它强调的是，人的脑子里对一个图像有个模糊的印象，可是偏偏靠这个模糊的印象就可以作断定。这个概念正在进行中。

这是另一个工做，刚才是用神经网络作表示、作生成，如今能够用神经网络在压缩层次上提供对这个内容分析理解的支持。传统基于信号处理的压缩，若是要进行分析会很困难。若是是基于神经网络的话，因为是基于特征的表示，对于媒体的分析理解会更加智能。

再看一看媒体分析，从多媒体到跨媒体。左边从视频到文字，给定视频后能够对应生成文字。右边反过来再从文字生成视频，从文字到视频比较有限制，限制于数据集，靠文字描述生成视频出来。这种技术再结合前边基于神经网络的压缩，智能压缩前景无限，这种技术对媒体的分析和理解确定比传统编码更优越。

接下来的内容是关于新媒体编码。关于光场，目前光场有两类，一类是基于相机阵列，还有用一些小凸透镜，至关于集中成像。对于光场，新类型的媒体能够用现有的框架去进行编码。

对于点云，虽然咱们感受它是新数据，其实也有比较好的编码处理方法。原来图像是二维的，分红一个块一个块处理。到了点云以后是三维的，也很简单，把它分红三维的块，原来是平面划分，如今改为立体划分，划分完以后这些数据能够进行变换、预测、处理。和传统编码也能够作一个很好的结合，目前这块都是处于比较初步的阶段，还须要继续研究。

以上是点云和光场与传统的编码框架之间的结合。还有一部分是关于光场编码和点云编码，光场编码处理也能够用点云的编码进行编码框架表示。基本思想是小凸透镜成像，从每一个角度情趣看这个图像，就能够当作一个球的图像。把球的图像进行分解，有一些系数，系数相似于点云的属性系数。

关于传输，编码和传输都有很大的影响。传输有些是咱们比较熟悉，好比 HLS、DASH。后端基于 Tile，把内容划分红 Tile，根据带宽状况，选择传输相应质量的内容。这个工做对于全景视频传输颇有用处，由于全景视频某些时候只是看某些角度，不是看整个内容，因此能够基于 Tile 的传输下降整个传输的工做量，还能提高图像的质量。

视点依赖的流媒体传输就是指全景传输。那么，咱们就能够利用神经网络，提早预测人看哪块内容，提早把信号内容发送过去以得到更好的体验质量。能够基于观者本人，也能够基于其余观众的注意来预测。

神经网络智能不止是在编码，在传输上也有不少用处。再看点云的传输，也是同样的，点云数量很大，能够考神经网络来帮忙，好比点云传输划分红三维的Tile，你看哪块我给你传哪块，来下降传输工做量。

3

新媒体编码时代：新应用

新应用，有线上抓娃娃，连抓娃娃这种应用均可以搞这种火，我相信新媒体应用能够搞得更火。

还有超高清，目前看到的有 4K、8K，也有人问咱们需不须要 8K。我在八年前第一次看见 8K 的时就不曾怀疑过，必定有人须要。别说 8K，16K、24K 也有其必要性。对于全景视频来说，咱们仍是须要更高的质量、更好的传输支持才会有更好的节目、更好的体验。

5G 与 VR，对于全景传输、动态点云的传输均可以提供更好的支持。

智能媒体的制做，纽约大学的研究人员 Ross Goodwin 训练了一个神经网络，给它输入几部电影它本身就能够写出剧原本，而后 9 分钟的电影就排出来了。也许将来咱们须要只明星的脸，不须要明星来演。

最后总结一下，The best is yet to come，最好的 TA 会来临。咱们要作的事情就是拥抱新技术，携手新媒体，研发新应用，开创新时代，个人报告就是这些，谢谢你们。

访问「声网 Agora 微信公众号」观看演讲视频回顾，获取更多 RTC