沉浸式音频技术近年来逐渐扩大其应用范围,常见应用于VR,影视,会议等场景。本文由时代拓灵创始人&CEO,孙学京博士LiveVideoStack线上分享的内容整理而成,从声场采集,传输,渲染播放算法以及软硬件等方面详细介绍了沉浸式音频技术的发展与应用。算法
文 / 孙学京架构
整理 / LiveVideoStackide
你们好,我是来自时代拓灵的孙学京。本次分享将主要介绍沉浸式音频的从采集制做一直到播放整个链条上所须要的一些软件和硬件的技术。函数
内容能够分为如下五个方面:工具
1. 沉浸式音频简介优化
2. 声场采集技术,硬件和软件编码
3. 制做、存储、传输插件
4. 渲染播放设计
5. 行业现状和相关应用视频
1. 沉浸式音频简介
1.1 什么是沉浸式音频?
什么是沉浸式音频?你们最近可能常常听到“沉浸式音频”,“全景声”这两个名词,那么它们与以前的环绕声或者3D音频有什么本质的区别吗?
通俗地讲,它们之间可能有不少的类似之处。但就技术层面来讲,从底层架构,到最终的展示形式都有很是大的变化。
首先咱们把传统的5.1音频扩展为不只包含声道也包含对象和场景。目前,沉浸式音频类型主要分为三大类:基于声道Channel based audio (CBA)、基于对象Object-based audio (OBA)、基于场景Scene-based Audio (SBA)。
目前市面上一些主流的系统主要是Dolby Atmos、MPEG-H以及影视行业的SMPTE 2098协议。其主体仍是基于Dolby Atmos,但同时它还容许其它不一样标准被兼容在此协议内,也就是说Dolby Atmos某种意义上是SMPTE 2098的一个子集,咱们能够在兼容Dolby Atmos的同时,推出本身的标准。所以我相信,接下来沉浸式音频未来会迎来一个很是大的利好。
1.2 沉浸式音频-传统到3D音效
基于扬声器的沉浸式音频,常见的是5.1或7.1,若是是耳机设备,则会有HRTF双耳3D环绕的音频。5.1音频其实是固定的声道位置,由左前、右前、左后、右后构成,而7.1就是在5.1基础上再加两个背后的声道位置,.1就是低频通道的意思。
目前新的沉浸式音频,再也不局限于平面式的声道,进一步支持全面360度*360度的沉浸式音频(支持高度)。例如影院的杜比影厅,顶部都会布有不少的喇叭;若是是家庭的话,咱们常常叫作5.1.2,就是在顶上再设置两个音箱,或者7.1.4就是在顶上再设置4个音箱。
真正想要达到一个很是好的沉浸式效果,顶部的高度信息带来的对人的感官冲击感是很是强烈的,好比下雨或者打雷的声音。即便在平时可能感受不到很明显的差异,但当你真的专一于音频效果时,增长了高度信息的音频感受就会很是震撼。
这种变革若是停留在传统的5.1格式上是很难实现的。尽管传统的作法经过布多层的方式也能够模拟出高度信息,可是并无从根本上,即制做混音端来改变底层的架构。所以,高度信息的增长其实是对影视行业沉浸式音频制做的巨大改变。加入高度信息的音频会有很高的沉浸感,而且底层的渲染技术比传统的5.1混音要复杂不少,方位的渲染精度也会大大的提高,因此总体的渲染质感有很大的提高。另外,近几年在AR或者VR时代,很是强调交互的特性。好比VR头显设备的头部跟踪、旋转,不只要旋转视频,同时还须要旋转声场。这些都是传统的5.1音频(事先混音)很难实现的,而新的渲染技术,沉浸式音频架构是能够实现的。
至于其它的应用方面,在看电视节目的时候,沉浸式音频还能够灵活的根据不一样的场合控制选择不一样的语言,选择声场中不一样的方位进行体验等。这些都是经过传输一个对象或者传输一个声场的概念来实现的,而传统的5.1或者立体声传输是没办法实现的(没法实现单音轨分离)。
最后一点,制做与播放设备的分离。不管是5.1音箱、立体声耳机或是其它设备,其中的混音都由渲染引擎中的软件算法来实现。在制做的时候,如图,混音师就会假想出一个球形的空间场景,也就再也不彻底依赖必须有一个5.1的混音厅才能将声音混好,而且完成一次混音就能够在任何地方进行播放。
1.3 Object Audio
DolbyAtmos的混音界面如图右下角所示,是一个模拟电影院的方盒子,屏幕在前方。其中小球表明的是音频对象,其在三维空间中会有一个运动的轨迹。混音师会戴耳机或者经过本身的混音环境来体验混音(音频对象)的轨迹,但实际最终播放的时候有多是一个5.1或者7.1.4的混音环境,这个是由渲染引擎来完成的。
对象音频是如今比较流行,而且逐渐占据主流的。其源自于游戏,杜比做为一个商业公司将对象音频完全商业化推行到影院中,并进行了许多商业算法上的创新,解决了不少复杂的场景问题。
对象音频的一项核心组成部分就是元数据,咱们其实是经过位置、扩展度或者运动特性等来描述对象音频,这些元数据都要传输到渲染端,同时会进行一些编码压缩操做。对象音频的渲染方法通常是基于Panning,就是声音如何经过幅值、相位的关系在多个喇叭或者耳机里产生必定的方位感。
1.4 Scene-Based Audio
Scene-Based Audio主要是以MPEG-H为表明(实际指MPEG-H中Scene-Based Audio部分所占比例较高)。Scene-Based Audio主要是用来描述场景的声场,其核心的底层算法是HigherOrder Ambisonic(HOA),所以一些新的沉浸式音频的底层技术也不彻底是新的,算法以及新的技术都是渐进的,近几年随着带宽的加大,随着复杂度即算力的加强,以及AR、VR新的交互方式的产生促进了技术的迅猛提高。Ambisonic也焕发了青春,VR成功将其带到了大众的面前。Ambisonic 描述三维空间中的声场,例如一阶Ambisonic更多的是经过极坐标。
一阶Ambisonics :FOA
Ambisonics 中存在一种阶的概念,一阶Ambisonics咱们称之为FOA(First-Order Ambisonics),零阶即没有任何方向,也就是全向麦克风来描述声场。一般状况下,在Ambisonic中B格式为中间格式,声场采集设备获得的原始信号为A格式。为了便于后续的运算,不管麦克风是什么样子,一般都会转化为通用格式即B格式。
如图,X表明一个点元,经过Ambisonic的(W,X,Y,Z)表示,将其映射到一个声场中是很是简单的,主要是应用了三角函数进行一系列公式的计算。将其通用化后在高阶时的表现即为球面谐波函数。
高阶Ambisonics :HOA
描述声场其实就是经过物理学的球面谐波函数来描述声波在空间中的传播,存在很是高的阶数,如以前提到的零阶、一阶函数,甚至三阶函数(右下角图)。
2. 声场采集技术
2.1 双耳录音
接下来介绍声场采集技术,在音频平台中比较常见的有双耳录音,模仿人类大脑工做方式,模拟人左/右耳听到的声音。常见的使用工具为3Dio人工头麦克风。
上图为VR时代,3Dio的升级(复杂)版本,适合于四个方向的Omni Binaural Microphone。Binaural录音能够理解为声场采集的上限,抛开人耳个性化的差别,达到的仿真效果要比HRTF等要好得多。这个录音的输出格式一般叫做Quad Binaural (QB)。
2.2 Ambisonic 录音
Ambisonic 声场录音的优点是更加灵活,经过录音设备获得的Ambisonic信号,能够直接作不少的后续处理。可是若是用Ambisonic信号转成Binaural,效果在某一点上会逊色于Binaural信号。咱们也曾作过一些比较,若是是用于VR 360度的声场采集,与Omni Binaural录音或者QB格式相比,Ambisonic录音总体表现会比较平均,也就是最好方向比QB差,但也会比QB最差的方向要好一些。
有关声场采集的算法以及麦克风的设备,相对来讲比较复杂。简单地说,与其它设备的麦克风阵列使用相似,都有一样的需求:核心参数有信噪比、一致性、灵敏度、频响;选择MEMS麦克风仍是ECM麦克风。早期通常会选择ECM,但ECM的一致性稍差,因此比较贵的麦克风出场时都会自带匹配的校准参数。目前新的麦克风更多的是MEMS,一致性相对较好,能够达到,能够知足不少需求。Ambisonic声场采集获得的阵列信号,在刚性球体上,能够近似的用刚性球体球面谐波函数,把传感器获得的信号转成球面谐波函数的一些系数来表示,而后针对系数进行后续的声场的旋转等操做。
3. 沉浸式音频的制做,存储,传输
那么,有了沉浸式音频声场的采集,以后应该如何进行进行制做?目前主流的工具Pro Tools、Reaper、Nuendo都是在影视行业比较经常使用的。主流的Pro Tools目前已经全面支持Dolby Atmos,也能够支持一些高阶的HOA;Reaper由于其功能强大,价格便宜,性价比高,被愈来愈多的音频行业人士所喜好。
以上提到的咱们称为音频工做站,实际上大部分的工做仍是经过插件来完成的,工做站完成主流的工做,靠插件来完成具体的如混响算法或者VR相关的一些工做。常见的插件主要有:Ambix、Facebook 360workstation、Dolby Atmos。
图为时代拓灵公司的插件,叫作Twirling Works,最初是为了VR制做来设计的。
多通道音频压缩通常是经过提取相位差、幅值差等一些Parametric Stereo,多通道一般选择降维或者去相关的方式。
MPEG-H HOA编码的核心是其中的HOA Decomposition部分,将有方向的,细节部分的信号取出来。将无方向的,环境声音信号分离开。
HOA的优点是存在分层的编码机制,若是在带宽精度要求不高,带宽不够的时候,能够传输输入较少的低阶信号,若是带宽足够的话,则能够传输高阶信号。
对象音频的编码主要是来自杜比的科学家的贡献,首先是兼容5.1开发了Joint object coding(JOC),能够将多个对象音频下混到5.1声道,经过传统的5.1通道,生成的信号能够被5.1解码器很好的兼容播放。而且若是同时支持对象音频,就能够将其还原成为支持Dolby Atmos的沉浸式音频。Spatial coding能够理解为是在JOC之上的前处理,面向更多的对象,能够经过一些准则如:对象的重要性,能量等对多个对象作聚类。
4. 渲染与播放
渲染与播放是很是关键的一个部分,渲染的方式一般叫作Panning,在三维空间中的渲染方式称为Vector-based Amplitude Panning。
HOA的渲染相对更复杂一些,主要须要考虑的是如何将不一样的HOA的信息给到不一样的喇叭。
以上是优化HOA decoding所使用的准则之一Max rE。
以上是Decoding的几种不一样方式,传统的主要Sampling or projection decoding和Mode-matchingdecoding两种;此外,还有一些新的进展,尽量的使得渲染更均匀,最大程度保证音质不受损。
5. 行业现状与相关应用
有关行业现状,声场采集部分一阶Ambisonics(FOA,First-Order Ambisonics)已经很常见了,而且同时也出现不少高阶Ambisonics (HOA,Higher-Order Ambisonics) 的采集。VR对于Ambisonic存在很强大的助推,Google和Facebook也在提供支持。得益于一些主流公司的支持,你们对此技术有了更多的认知和重视。
专业领域则主要是Object Audio和HOA两大趋势,接下来随着5G、AR、VR的发展沉浸式音频技术的将来是很是可期的。
关于沉浸式音频技术的相关应用,毫无疑问影视娱乐,VR是最主要的应用,例如各家影院的杜比全景声能够说是很是常见的。此外,在我认为会议实际上是非很好的应用点,你们都但愿能有一个很好的沉浸式的会议体验。另外,还有声场采集以及在其它声学领域的应用,例如声学事件监测,定位等也逐渐开始出现一些应用。