会议更流畅，表情更生动！视频生成编码 VS 国际最新 VVC 标准

时间 2021-05-02

原文原文链接

阿里云视频云的标准与实现团队与香港城市大学联合开发了基于 AI 生成的人脸视频压缩体系，相比于 VVC 标准，二者质量至关时能够取得 40%-65% 的码率节省，旨在用最前沿的技术，普惠视频通话、视频会议、在线教育等重要应用领域。

做者｜王钊、叶琰、王诗淇网络

审校｜泰一框架

https://www.youku.com/video/X...ide

基于 AI 生成的人脸视频压缩

继线上购物、线上支付后，在线教育、在线办公、在线互娱也流行起来，丰富着咱们的平常工做生活，其中一大功臣 —— 视频，是主要的推进力。整个社会的大趋势在走向内容视频化，交互线上化。视频云业务成为云业务中最煊赫一时的版块，云端一体创造了更低成本、更低门槛、更强体验、全民共享的技术普惠能力。钉钉也成为一种新的工做学习方式，经过视频会议帮助亿万人解决异地工做的问题，帮助亿万中小学生解决在家上课的问题。性能

不管是视频会议仍是其它视频场景，视频压缩都是最基本也是最核心的能力。国际 ISO/IEC 与 ITU-T 标准组制定的一代代视频压缩标准，如 H.264/AVC (2003)，H.265/HEVC (2013) 等，表明了视频压缩能力的每一次重大发展。在 2020 年，最新的国际视频压缩标准 H.266/VVC 正式完成制定，相比于 H.265/HEVC，能够提升一倍压缩率，相比于 H.264/AVC，能够提升四倍压缩率。学习

AI 技术的兴起也在向普遍的应用领域发起挑战。其中，号称 “万物皆可生成” 的 GAN（对抗生成网络) 则被一些互联网科技巨头公司尝试用于会议视频压缩上。2020 年，Facebook 与 Nvidia 均发布了基于生成的会议视频压缩方法，报告显示能够取得明显优于 H.264/AVC 的压缩效率。测试

今天，阿里云视频云的标准与实现团队经过和香港城市大学的紧密合做，也推出了基于 AI 生成的会议视频压缩系统，相比于最新的 VVC 标准，在实验室测试场景中，相同的人眼观看质量下能够节省 40%-65% 的码率。VVC 已经表明着业界最早进的视频压缩能力，而咱们系统相比于 VVC 所显示的技术优点则意味着咱们有望能够在不久的未来大幅度拉开钉钉视频会议和竞品系统之间的技术差距，用一半的带宽开相同质量的钉钉视频会议！阿里云

传统客观质量评价指标如 PSNR、SSIM 等依赖于像素级的失真计算，并不适用于生成任务的失真评价。DISTS 指标（ PAMI2020[1] ）和 LPISP 指标（ CVPR2018[2] ) 是两个近年来质量评估领域的顶级文章，它们经过深度特征来度量解码图像与原始图像的类似度，能够更好地针对基于 GAN 的视频压缩场景进行质量评价，所以它们与人眼主观质量评测的相关度远高于 PSNR 和 SSIM 这些传统指标。编码

当咱们视频云的基于 AI 生成的会议视频压缩系统与 VVC 参考软件使用相同的码率时，视频云生成压缩系统的解码视频相比于 VVC 能够得到 40%-65% 的质量提高。也就是说，在相同的带宽下，用户能够享受到更加清晰、生动的画质。spa

在 DISTS 客观指标至关时，视频云的生成压缩系统与 VVC 对好比顶部视频所示。经过观察对比视频效果能够看到，视频云的基于 AI 生成的压缩系统与 VVC 相比有大幅的带宽成本下降（只用 1/3 左右的带宽），同时在视频清晰度和主观质量上能够取得明显优点。视频

因为 VVC 是基于传统视频压缩框架，所以在低码率下容易出现视频模糊不清以及块效应等主观质量问题，而视频云的生成压缩系统则能够在更低码率下依然很好地保持面部细节和五官清晰度。在码率 / 带宽至关时，视频云的生成压缩系统与 VVC 编码对比视频以下，相比于 VVC 画面清晰度和主观质量的优点更是明显，面部表情栩栩如生。

https://www.youku.com/video/X...

压缩系统关键技术

咱们提出的基于 AI 生成的视频云会议视频压缩系统的编码端包含两部分：压缩源图像的 VVC 编码器和用于提取其余图像帧的脸部运动信息的脸部探测器。首先，经过对源图像在 VVC 编码器中在必定的量化步长下进行压缩，并传输相应的比特流到解码端。其次，在脸部探测器的帮助下咱们能够进一步提取后续其余图像帧的关键点和雅可比矩阵，用于表示这些图像帧的脸部运动信息。这些脸部关键点和雅可比矩阵进行帧间残差预测和算术编码，实现压缩并传输到解码端。

解码端首先解码出源图像，而后解码出待生成帧对应的关键点与雅可比矩阵。解码端的生成模型会以源图像、关键点和雅可比矩阵做为输入，对关键点对应的高维空间进行矩阵变换，并做用于源图像提出的高维特征图上，从而输出最终的生成图像。下图给出了一个可视化示例。

与 VVC 编码实验对比

咱们对 30 我的脸视频 (上图) 进行了 VVC 编码与基于 AI 生成的视频压缩对比。VVC 编码器在低延迟模式 (Low-delay B) 下使用量化参数 (QP) 32, 37, 42, 47。视频云的基于 AI 的生成压缩方法一样测试了 4 个不一样的码率点。测试集上的平均编码质量与码率以下表所示。

表 1 视频云的生成压缩系统与 VVC 的压缩性能对比，DISTS 与 LPIPS 数值越低表示质量越高

根据实验结果，能够看到在至关的解码视频质量下，视频云的生成压缩方法相比于 VVC 能够带来 40%-65% 的平均码率节省，同时这个压缩性能的优点在低码率场景下更加明显。把质量评分与码率作成相应的失真 - 码率曲线，对好比下：

图 4 视频云的生成压缩方案与 VVC 的压缩效率对比图

在码率至关时，视频云的生成压缩系统与 VVC 解码视频的主观对比图示例以下：

可见在低码率下 VVC 容易出现画面模糊的状况，而视频云的生成压缩系统的清晰度更高。

在解码质量至关时，视频云的生成压缩系统与 VVC 解码视频的码率对好比下：

能够看到，在压缩质量至关时，视频云的生成压缩系统相比于国际最新 VVC 标准可将压缩率提升 40%-65%。这不只极大下降了相关视频应用的带宽成本，还可让用户享受到更生动、更流畅的视频体验！

参考文献：

[1] Ding, Keyan, et al. "Image Quality Assessment: Unifying Structure and Texture Similarity." IEEE transactions on pattern analysis and machine intelligence.

[2] Zhang, Richard, et al. "The unreasonable effectiveness of deep features as a perceptual metric." Proceedings of the IEEE conference on computer vision and pattern recognition. 2018.

「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实践技术文章，在这里与音视频领域一流工程师交流切磋。