2021 技术展望 | 实时互动场景下,音频的技术变迁与机遇

线上会议、在线教育、电商直播等多个场景的兴起,也使得实时互动技术从幕后走到台前,获得了更多人的关注。编解码、网络传输、计算机视觉等 RTE 相关的一系列技术也正焕发出更强的生命力。2021 年,在深度学习、5G 等技术的加持下,RTE 会进一步催生哪些可能?前端

声网Agora 开发者社区联合 InfoQ 共同策划,邀请了声网Agora 开发者社区中的多位技术专家,从视频传输、计算机视觉、编解码标准发展、WebRTC、机器学习、音频技术等角度,共同撰写「2021 实时互动技术展望系列」,一窥技术新趋势。本文源于对声网Agora 音频体验与工程总监陈若非的采访。本系列内容由声网 Agora 开发者社区 与 InfoQ 联合策划,并由 InfoQ 审校,首发于 InfoQ算法

音频技术中有不少细节会影响到实时互动的体验。随着技术和应用场景的变化,音频也正在与更多的学科、技术结合。在实时互动场景下,哪些因素会影响音频的体验?相比于视频技术,音频技术是否发展较慢?面向 RTC 场景,音频技术又须要做出哪些改变?......为了解答这些问题,咱们采访了声网 Agora 音频体验与工程总监陈若非,请他来聊一聊在实时互动场景下音频技术的变迁与机遇。markdown

Q:相对于研究网络架构、大前端等方面的工程师来说,研究音频的工程师比较少。具体来说,音频工程师都会研究哪些相关技术?

陈若非:声音是信息和情感传递的载体,因此音频相关的研究基本会围绕如何让信息和情感更好的被传递和感知理解展开的。音频领域相对专业细分,可是咱们细挖一下就会发现音频相关的研究方向其实不少,涉及到的交叉学科也很广。从交互对象来讲咱们能够分为两类:人机交互的音频和人人交互的音频。从交互的实时性来分,又能够分红实时的交互和非实时的交互。人机交互主要研究如何让机器更好的理解声音和生成声音,经过 ASR、MIR、TTS 等技术来实现人类但愿机器完成的任务。人人交互的部分更多和人的感知系统关联,其优化目标会围绕如何让人更好的感知音频来展开。实时的人人音频交互又在此基础上提出了更多的约束条件,优化须要用更低的延时、更小的计算量和因果系统下展开。我所在的声网就主要聚焦于实时互动音频领域的研究,因此咱们会从采集播放、编解码、先后处理、传输的全链路去研究如何在尽量低的延时和计算量下提供更好的音频互动体验。网络

Q:聊技术变迁以前,首先梳理一下概念,在实时互动的场景下,哪些因素会影响音频的体验?

陈若非:实时互动音频是端到端,嘴到耳的体验,因此全链路上全部的组成部分都有可能影响音频体验。咱们能够从采、播、滤、压、传五个方面去分解技术对音频体验的影响。首先说采集,不一样麦克风的声学属性差别就对音频体验有决定性的影响,从拾音的距离,方向性到精度。被拾取的声音信号通过模数转换,信号采样也会形成声音的损失,采样率越高声音的细节就会保留的更好。因此一个高质量的麦克风会从源头上提供更好的音频源。相似的,一个高质量的播放设备能够更好的保留更多声音细节。而后先后处理是音频链路上很是重要的一环,你们常听到的 3A 技术都属于这个范畴,先后处理对原始采集的信号或者即将要播放的信号作二次处理,来滤除其中的干扰信号,好比回声、噪音、杂音、啸叫等,同时对目标的音频作音量和听感上的加强。另外在一些音效玩法里,咱们也会经过对信号的处理实现变声、美声等特定声音效果。再说下编解码和传输,这二者是强耦合的。原理上编码的采样率和码率越高,声音的保真度就更好,听端的体验也更好。但现实中网络的带宽是有限制的,还会常常出现丢包抖动等不利状况。好的编解码算法能够经过对声学模型和信息冗余的深刻理解,在相对低的码率下实现高品质的声音保留,从而保证在各类弱网状况下的稳定表现。同时咱们也须要经过开发信源信道的弱网对抗技术,在保证低延时的基础上,减小丢包抖动带来的听感影响。架构

Q:行业中有种见解,认为音频技术相对于视频技术,彷佛发展会稍慢一些?你怎么看待目前音频技术的发展?

陈若非:技术的进步都是需求推进的。电话时代的音频技术曾经经历火热的发展,一些经典理论如线性预测、自适应滤波,很好的解决了一些基础可用的问题,不少技术到今天还在被沿用。近几十年 VoIP 的技术也获得了长足的发展,咱们今天看到 VoIP 的分钟数能在通讯领域占据愈来愈大的份额,背后也离不开音频研究人员长期的扎实工做和持续进步。音频须要较高的技术门槛,全链路的木桶效应明显,设备耦合重碎片化严重,改进主观不易被感知,这些因素都决定了音频想要出成果须要坐的住冷板凳,须要长期主义的坚持。机器学习

近些年 AI 技术的兴起给音频注入了新的活力,也给不少长时间很差解决的问题提供了新的思路。人机语音交互成为了一个音频领域新的热点,相关的技术也蓬勃发展,目前在识别、合成等领域都取得了长足的进步。而在最近的几年,也看到了很多 AI 技术和 RTC 领域结合的实践成果,让人看到了进一步提高音频体验的巨大空间。从外部环境来看,在看腻了千人一面的直播后,愈来愈多的人开始喜欢心理包袱更小,想象空间更大的音频社交,近期的行业里也开始出现新的浪潮。相信在这种内外因的结合下,会有更多的人开始研究实时互动音频的体验,也很是期待这个行业会给你们带来不同的新体验。学习

Q:从实际来看,目前音频在实时领域还存在哪些技术挑战?

陈若非:实时互动音频领域还有不少技术挑战须要咱们的攻克。我这里提两个大点。第一,碎片化。传统的手机厂商是一台台调试算法和逐一经过声学测试出厂的。若是咱们要在不一样设备、环境、网络条件下提供一致性的高质量音频体验,咱们就须要寻找新的突破。在接下来万物互联的时代,这种需求会越发强烈,而这方面技术的突破会带来巨大的价值。第二,主观性。音频体验是一个很是主观的存在,每一个人的感知差别和喜爱也迥异。咱们须要找到更好的方法来匹配这种个性化的喜爱和提供更好的量化评价体系。测试

Q:基于你对业界、学界的观察,你认为音频技术面向 RTC 场景,接下来须要做出哪些改变?(如算法、技术的结合等)

陈若非:我认为实时互动音频的将来应该有下面三个部分。第一,AI 和信号处理的深度融合。经典的信号处理和声学模型已经能帮咱们解决不少问题,固然也很多解决很差的问题。在 AI 的有效融合下,能够有效的补充传统算法的不足,在合理的代价下更好的解决咱们的问题,而非简单视 AI 为灵丹妙药包治百病。第二,符合时代的评价标准。目前不少音频标准是给通信设计的,真正如聚一堂的互动体验须要对应的评价标准,如何更好的评价互动性,沉浸感是咱们须要去探索的地方。第三,真正的沉浸感和伴随感。人们开始不知足于单纯的信息交互,进一步的追求面对面的互动体验和情感伴随,而随着网络和设备条件的进一步成熟,这种将来也成为可能。音频全链路都须要升级,从声场的采集到还原,甚至加强现实,来创造出真正沉浸式伴随的体验,这也会将会是一条漫长的探索之路。咱们在声网一直致力于探索这些终年存在的行业难题,也欢迎各路有想法有追求的朋友联系我,共同交流探索,共同敲开将来音频之门。优化

相关文章
相关标签/搜索