导语 | 2019年9月7日,腾讯技术开放日·5G多媒体专场在腾讯滨海大厦完美落幕。来自腾讯多媒体实验室的专家们给你们带来了关于5G技术和标准的精彩分享,揭开了许多关于5G的谜团。本文重点讲解5G下沉浸式媒体的重要技术:3D&点云。算法
封薇薇,腾讯多媒体专家工程师,2018年加入腾讯美国,担任腾讯沉浸式媒体专家工程师以及项目负责人,以前曾在美国大型社交媒体,金融公司担任多媒体系统工程师,成功交付过多项多媒体关键技术项目,拥有丰富ToB, ToC行业经验。网络
首先,咱们分析下多媒体所处的大背景。以下图所示,全部的数据事实上都指向大部分流量尤为是手机终端流量,都是被视频所占据的。2018年大概60%数据是在给视频,在5G到来的将来,这个状况不会下降反而会更加加重。据预测,到2024年,这个数据有可能达到74%或者更高。缘由是由于咱们人类对于信息的渴望是在不断增长的。纵观历史,从过去纸质书籍到广播媒体、电视媒体到如今的终端,信息量愈来愈大,但这个欲望历来没有被知足,这就触发了咱们如今对多媒体技术的不断研发。5G时代到来,对技术的探索不是终止,反而会是更大的促进,而沉浸式媒体技术也势必会获得更好多发展。架构
接下来我跟你们讨论一下多媒体系统。以前多媒体是一个比较复杂的系统,这张图上所介绍的大概能够涵盖直播、点播、实时传输这几种传播特性。腾讯多媒体实验室参与的标注与产业系统,目前覆盖了行业中多个标准,大致分四类:媒体标准、网络标准、系统标准以及其余行业标准框架
对于工程来讲,咱们会具体把标准落体为真实的产品,应用到每个技术模块上。优化
对于沉浸式媒体,从模块上来看包括从采集、压缩处理、传输,以及渲染和交互。对于三维场景,沉浸式媒体更加接近于真实对世界的理解或者感觉,更方便或者更容易让你们和三维场景进行交互。这对咱们沉浸式用户体验是很是好的展现或者应用。编码
下图是咱们为儿童教育作的一些小的展现,主要应用的是裸眼3D和AR技术场景。后文会对3D相关的技术进行阐述。3d
具体怎么从二维世界到三维世界。一般看到的电视或者视频,都是经过摄像机拍摄的。它的拍摄方式是将真实世界投影到二维平面上,经过平面再进行压缩处理。对于3D来讲,如何更好的展示三维的世界。能够假设眼睛是一个摄像头,看到的世界能够上下左右旋转。所以最简单的实现方式就是把三维世界投影到一个球体上,能够想象为一个球体,人是站在中心的,经过旋转来观看不一样角度的场景。cdn
三维的应用场景这样会给用户更自由观看选择,也所以更加人性化。如何把三维数据进行压缩传输,咱们的想法是利用如今2D压缩传输相对比较成熟的模式来对三维的东西进行压缩传输。所以咱们会运用投影技术,将三维球体投影到二维平面,能够想象将一个地球仪投影到世界地图上。这种投影方式通常称之为ERP。通过了这样的投影,将三维球体转换成二维平面,就能够用正常的二维视频技术将它进行压缩和传输。视频
具体怎么采集三维信息呢?拿鱼眼作举例。通常摄像头都有一个角度,任何一个镜头只有必定的视角的限制。假设是鱼眼状况下,视角限制是180度,若是想要360度,须要两个鱼眼镜头背靠背再将他们组合回去。具体方式是将鱼眼拍摄下来的图片,将右上角的图片经过镜头的角度投影回ERP,每个都分别拥有一个180度的图像。对这两个图像进行比对,找到了对应部分的类似点,经过计算获得一个平移和旋转的矩阵,通过平移和旋转矩阵的转化,将这两个图片彻底对齐,对齐后再将它们拼接起来。blog
事实上VR360技术是和投影技术息息相关的。通常状况下都是ERP投影状况,但事实上能够看到ERP投影状况是有必定缺陷的。在两极状况下有大量冗余信息,这些信息是不须要彻底被传输的。而实验室经过对投影方式的变化在保证最终质量的同时有效的节省了25%ERP中的冗余,使整个系统在端到端的处理传输中更加的高效。
下面具体沉浸式媒体系统是怎么实现的。
首先讲一下传统多媒体,通常在点播或者直播状况下,会有容器描述音频和视频图像的存储形式。由于真实世界里网络环境很是不稳定,传输前会准备多路不一样质量的视频,使在不一样网络状况下用户能够随时无感切换,调整到最适合的状态。对于全景视频,咱们仍然但愿采用传统传输结构的缘由是能够复用现有的技术架构来服务新的场景,从而避免架构调整所带来的成本增长。
OMAF做为全景视频媒体格式,除了定义媒体系统框架,针对全景视频,在视频容器中也会定义一些新参数,来指示这是否是传统视频,采用什么投影方式,也会有一些用户辅助信息,好比初始角度、推荐角度等。
虽然有了刚才的三维全景系统定义,但对于全景传输,还有一个很是大的问题。由于咱们如今传输的东西是包含3D信息的,它数据量明显会大于二维,4K,8K的视频大小在三维上依旧是不够的。
但事实上虽然系统中传输的是总体三维视频,真实用户看到的由于只是其中一部分。针对这个状况,咱们实验室在工程上采用了HEVC,经过其能够支持切块并行处理特性将每一个快单独包装成一个独立的视频流,这样用户在下载时能够根据可视区域自由选择下载的部分,能够大大节省码率,提升可视部分的清晰度。实验代表这种解决方案,能够大概节省50%带宽。固然这种状况下对于码流估计会更加复杂,相关算法也须要进行了一些改良。
刚才说到的是360视频,一种对三维世界的描述方式。除了360视频外,还有其余对三维世界描述的方式。好比常看到的方法,把三维物体用点和面表示。另外的方法是能够用激光雷达或者摄像机矩阵将一个三维物体直接数字化,变成一个点的数据。每个点会包括它的位置x、y、z和其余信息包括r、g、b和色彩信息y、u、v等。这样的描述方式咱们称之为点云。静止的点云包含千万级数据,动态点云每帧能够有百万级数据。这种点云的描述方式有一些特性,点和点之间没有联系,没有顺序。所以能够根据这样的特性进行随意的排序,用来将来压缩技术的优化。
点云压缩分两种,一种是V-PCC,和360视频有一些相似的想法,咱们想利用原有的视频压缩技术对点云进行压缩。另一种是G-PCC,基于几何的点云压缩。
V-PCC也是一个投影的过程,它是将全部三维物体投影到不一样的平面上,须要的技术是在投影过程当中须要把子块划分尽可能减小一些遮挡,子块须要有一些比较平滑的边缘,尽可能占有比较小的空间来造成最终的压缩图片。对于G-PCC,它是更独立的压缩过程。以前说到传统视频视频会用二叉树、三叉树、四叉树,到G-PCC则是采用八叉树。举例兔子,会对兔子不停进行切割,切割到最小方块,用八叉树表示位置的编码。对于它其余属性,在获得八叉树编码时,会将属性根据八叉树进行叉值预测再计算叉进行编码。
这是点云的压缩模块。
左边是V-PCC模块,跟以前所看到的通常二维视频稍微相似一些,但会多一些投影模块;G-PCC是相对独立的编解码方式,会用到八叉树这些编码。通过V-PCC或者G-PCC的压缩,经过V-PCC,假设有10万点的30帧每秒数据,原始数据没有通过压缩,可能会达到360兆。若是进行了V-PCC的压缩后,会达到1兆。它是一个很是高效的压缩方式。对于G-PCC来讲,一样10万点,10帧每秒的状况下,没有压缩的数据假设是110兆,无损压缩能够获得24兆每秒的压缩结果。
实验室在点云技术上实验室在国际国G-PCC,V-PCC上均拥有多项提案和专利。
而在国内标准上实验室牵头成立点云工做组,推动点云国家标准。
同时经过合做的腾讯自动驾驶团队,咱们成果将点云压缩推广至现实产品应用,2019天预计的路测采集数据量大概十的十五次方,经过点云压缩,存储量会变为原来的1/6。
除了刚才所谈到的自动驾驶,点云和360还有其余的应用场景,好比如今所看到的自主广播视点,能够想象刚刚的点云,若是是这样一个场景,会须要大量的点来表示,数据量是很是可观的,因此咱们会利用360比较适合远景的性质录制远景,近景会采用点云方式,最终会获得一个自主视点广播效果。
沉浸式媒体,是VR这块数据传输量比较大一般面临着巨大的挑战,但随着技术的发展,伴随着5G时代基础设施的迭代,这些问题已经获得了一些质的突破,因此愈来愈多产业已经开始更多的应用了XR技术,包括体育、文旅、娱乐、影视、科教、新闻、商业。
经过以前的数据能够看到,如今在VR/AR,将会有一个比较快速的上升期,从而为人类带来全新的体验,科技向善助力将来。