阿里云视频云编码优化的思考与发现

简介:阿里云智能视频云 资深技术专家王豪这次做为 LiveVideoStackCon 2021 的讲师,与咱们分享其对编码优化的思考与发现。

image.png

*王豪_(天野)_*算法

阿里云智能视频云 资深技术专家浏览器

2010 年毕业于华中科技大学,此后投身多媒体方向的技术开发,从流媒体、视频编码、视频处理到质量评价均有涉及,并从零开始打造了一款普遍商用的视频编码器及其先后处理系统。加入阿里云视频云后,负责视频编码与加强算法,团队聚焦在视频编码、视频先后处理以及质量评价方向,并重点研发演进窄带高清技术。服务器

这次做为 LiveVideoStackCon 2021 的讲师,王豪与咱们分享其对编码优化的思考与发现。数据结构

Q1.你最近关注的技术趋势?有哪些是你认为比较有发展前景的?

我我的的技术栈一直聚焦在视频编码和处理方向,也一直在思考,在这个方向上,咱们短时间和长期的布局是什么,中短时间布局如何保证竞争力,以及长期布局如何避免系统性踏空。架构

利用 AI 辅助视频压缩是业界很是关注的方向,它有这几种思路:ide

1. 私有编码模式:端到端的视频压缩,基于深度学习的模块级视频压缩优化;布局

2. 基于实时图像生成的视频压缩,由于 GAN 生成人脸和人体比较成熟,但在其余场景成熟度不够,所以这个方向在会议场景比较火,咱们也在持续关注和尝试。学习

3. 基于标准编解码器的视频编码与处理联合优化,包括两部分:利用视频处理提高编码压缩率和利用视频编码提高视频处理效果。优化

这其中,我最关注 “基于标准编解码器的视频编码与处理联合优化”。针对视频后处理,还有如何进行编码决策优化_(包括模式和码率)_,同时扩展到分层编码,这个方向是整个端云联合优化的核心,对工业界应用有很大价值,但愿到时候和你们一块儿探讨。阿里云

Q2.你曾经参与上线的音视频业务,印象深入的一个是?

印象最深的确定是当下正在作的业务。咱们团队正在进行窄带高清第二代的算法优化升级,在如何持续提画质和降码率的过程当中走了不少弯路。

目前,在窄带高清第二代优化中,咱们从人眼视觉出发,将客观最优转向主观最优,同时利用 AI 进行视频加强,再加上视频编码处理联合优化,使得码率节省的同时,主观质量也明显获得优化,这项技术更适合高热内容场景的处理,可以为客户带来更大的商业价值。

什么是窄带高清 ?

窄带高清表明的是一种成本与体验相调和的视频服务理念,阿里云早在 2015 年就提出了 “窄带高清” 的技术概念,其是以人眼主观感觉最优为基准的视频编码技术。窄带高清在业界属于内容自适应编码范畴(contentadaptive encoding), 核心目标为:追求带宽,质量,成本的最优平衡。

窄带高清的技术价值?

直播平台调研数据显示,只有 16% 的用户可以看到超清的视频,54% 的用户可以看到高清的视频,30% 的用户看不到高清视频。窄带高清以人眼主观感觉最优为基准的视频编码,可以把超清码率往高清码率更靠近一些,让更多的人能够看到超清视频。

  • 窄带高清 1.0: 经过视频前处理提高视频质量,实现码率节省。
  • 窄带高清 2.0: 引入 AI 进行细节 / 色彩自适应修复、加强,从人眼视觉模型出发,将视频的优化目标从经典的 “保真度最高” 调整为 “主观体验最好”,在提供更加清晰的观看体验同时节省带宽。

Q3.你此前接受 LiveVideoStack 的采访时,有讨论过视频 Codec 的将来格局

“先说结论:视频 codec 的将来格局必然是群雄争霸的局面,而且在中美贸易战的影响可能出现新的变数。因为 HEVC 专利池的各类问题,H.264 一家独大的优点不复存在,目前 AV1 在国外基于谷歌生态的优点,已经在流媒体领域站住了脚跟,造成三强争霸的局面。对于下一代编码器而言,AV2 预计距发布还有必定的时间,这里先不评价,已经发布的 AVS3 基于当前贸易战的形式下可能有新的机会,而对于 EVC 和 VVC,专利策略将是市场是否接受的关键因素,目前还很差说。”

—— 在 VVC 定稿、神经视频编码进一步突破、AV1 不断普及的一年后,

你对此有哪些的见解与思考呢?

如今依然是群雄争霸的局面,主流也依然是 H.264VP9 由于压缩率没有真正和 H.264 拉开差距,虽然生态也很全面,但使用很少。H.265 的硬件解码在消费电子和智能电视上被普遍支持,惟一的软肋是浏览器。目前,在流媒体领域,H.265 依然是除 264 外最合适的 codec。

去年,AV1AVS3 都找到了本身的优点场景。AV1 凭借谷歌在 WebRTC、浏览器以及安卓的生态里被普遍推广,所以在浏览器和 WebRTC 上的应用都有优点,但硬件编码器的支持仍是不足,尤为在消费电子领域,目前尚未看到对 AV1 的相关支持。此外,Sisvel 专利池的问题也还没看到官方回应。而 AVS3 在国内电视广播行业成了超高清的事实标准,央视也用 AVS3 进行了 8K 直播。

VVC 从技术上来看是最早进的视频压缩协议,最合适在业务闭环场景下应用,但目前其专利费结构最先要到今年年中才能获知,我的认为专利问题很难解决,同时硬件解码支持不明朗,须要持续观察。

Q4.除去已被屡次讨论的在线教育、语音社交等领域,在你看来,视频云行业还有哪些领域将迎来井喷式发展?

目前视频的生产、制做和处理远远还不成熟,视频制做依然存在门槛,视频处理的带宽也依然很大。如何知足整个行业对视频化的需求、如何帮助社会和行业下降视频制做的门槛、下降视频处理的成本,使视频可以普惠化,这些都是亟待解决的问题,而解决该矛盾的核心就是视频生成和处理领域的技术,所以咱们很是看好内容生产与处理领域。

阿里云视频云但愿能推进这个时代将大部份内容的表达方式和信息的传播媒介从图文进化为视频,这个方向也是咱们的发力点。固然,这中间还有不少关键技术须要持续提高和突破,例如实时渲染技术,AI 在生产制做领域的进化等。

Q5.视频云行业的蛋糕会在将来持续变大吗?阿里云视频云为挣得 “更大的蛋糕”,在视频编码等相关领域作了哪些技术储备?

目前视频已经普遍地应用于各行各业,视频也开始承载愈来愈多的社会信息,不少交互都从线下转到线上,随着 5G 时代的到来,相信视频领域将会不可避免地迎来更猛烈的爆发。为帮助各行各业更好地承载信息,视频技术的演进方向也会愈来愈云化、数字化、普惠化,视频云行业会持续高速增加。

咱们一直致力于如何将视频技术普惠化,普惠化的核心是成本和体验,基于这个思路,在视频编码和处理方向,最核心的就是如何帮客户提高质量,同时下降带宽成本和服务器成本。

咱们全部技术布局都围绕这个目的,总的来说作了以下方向的布局和持续突破:

1. 编码内核:软硬一体,编码器持续降成本;

2. AI 辅助压缩,场景自适应编码;

3. 下一代编码器优化,持续打造编码竞争力。

Q:__你的职业发展伴随着视频编解码技术的不断迭代升级,能和咱们分享在编解码技术上的学习心得以及本身的职业理想吗?

感受本身比较幸运,我的发展正好遇到了多媒体技术爆发性发展的时间段,尤为是视频技术。看到越多越多的视频压缩和处理技术不断涌现出来,是一件很是爽的事情。

关于我的职业发展,我以为最重要的仍是兴趣驱使,这对于行业入门以及后续的我的提高都很是重要。尤为是入门期间,须要真正由兴趣驱动,才能在繁忙的工做中强行抽出时间去真正熟悉一项技术。

其次,有关我的技术的升级,我以为这就是一个不断地自我否认和自我确定的过程:自我否认能帮助咱们找到提高本身的方向,自我确定则能帮助咱们在困难的时候继续走下去。理想的话,目前是但愿能作出真正能改变世界、影响世界的技术和算法,能改变人们的沟通和交互方式;从技术上来讲的话,但愿和同行们一块儿 Make Video Codec Great Again

Q6.本次参与 LiveVideoStackCon 2021 上海站,你将带来有关阿里云视频云窄带高清的优化思路,能够剧透一些演讲内容吗?

主要会分享:

1. 咱们在窄带高清方面的思考,窄带高清归根结底是一个压缩问题,随着深度学习的发展,视频处理,视频生成辅助压缩成为学术界和工业界的研究重点,在这个方向咱们的观点是什么?窄带高清的终极目标是什么?

_2._  为达到这个终极目的,咱们对窄带高清技术的短时间思路和长期思路分别是什么?为何对窄带来说,评价的惟一方式是主观?

_3._  基于该思路,咱们在短时间进展及对将来的布局和思考。

Q7.对于此次 LiveVideoStackCon 2021 上海站的全部演讲阵容中,你对哪方面的分享内容最感兴趣?

从我的来说,视频编码和处理方向的技术我都很感兴趣,好比如何利用 AI 辅助传统视频编码提高压缩率、传输哪些 bit 对视频后处理质量提高最大、编解码联动时编码器的决策须要作哪些优化、如何利用 bit 帮助视频处理下降复杂度,以及编码器前处理如何保证编码后质量最优等问题。

除技术外,对技术商业策略方向也很是感兴趣。目前视频技术已经慢慢变成了一个社会、行业的基础能力,在这个背景下,视频如何更好地服务于各行各业,对技术、产业、商业提出的挑战是什么?跨在技术和商业落地之间的鸿沟是什么?以及如何跨越这些鸿沟等,都是很值得讨论的话题。

Q:若是要为想从事视频编解码优化工做的同窗推荐一本书 / 一门课,你会推荐什么?

编码优化是一个 “理论 + 标准 + 工程” 的流程,须要不断地去迭代、循环,带着理论的疑问,在标准中思考缘由,在工程优化中发现问题,再从理论中寻找答案。

理论方面,视频编码属于信源编码_(Source Coding)_方向,通常应用都为有损压缩,所以,想要从事相关工做的同窗在信源编码和率失真优化_(Rate Distoriton Optimization)_ 方面都须要积累基础的理论知识。

标准方面,中文书推荐杨付正老师的_《新一代高效视频编码 H.265/HEVC:原理、标准与实现》_,英文书推荐 _High Efficiency Video Coding.Algorithms and Architectures_,能够看一个标准入门,不用贪多。工程方面,建议你们能够拿一个开源编码器入手,好比 x265,还能够和 HM 对比着看,思考二者的差别,包括数据结构的设计、模块架构、码控等等,这样会更有感受。

LiveVideoStackCon 2021 上海站时间:2021 年 4 月 16 日 - 4 月 17 日image.png

本文内容由阿里云实名注册用户自发贡献,版权归原做者全部,阿里云开发者社区不拥有其著做权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。若是您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将马上删除涉嫌侵权内容。