RTC 技术干货 | 音频质量评价体系那些事

前言算法

近年来,线上音视频的产品形态和应用场景愈来愈丰富,疫情更加速了许多行业线下转线上的布局,音视频技术也愈来愈受到各大厂的重视,Zoom 的股价飞升,腾讯、字节、阿里等等巨头的大力投入,令这个赛道的竞争愈加激烈。在这个激烈的竞争环境下,全部的赛道玩家都很清楚,好的音视频体验,将是决定产品成功与否的最重要因素之一。在本篇内容中咱们将主要围绕音频质量评估的一些重要标准,来说讲不一样评价体系里的标准、内容、相互关联和一些我的看法。markdown

在介绍各类评价标准和算法以前,有一个组织必需要重点介绍,ITU (International TelecommunicationUnion) 国际电信联盟简称国际电联,ITU 是主管信息通讯技术事务的联合国机构,旗下有一个专门制定电信标准的分支机构 ITU-T(ITU Telecommunication Standardization Sector of ITU)。网络

图片 1.png

01 主观音频质量评价标准:MOS in ITU-T P.800

提及音频质量的评价,它并非如今才出现的。早在电话发明以后,如何系统地评价语音质量就成了一个难题。ITU-T 做为通讯领域制定标准的权威机构,固然不会坐视无论,因而在 1996 年 8 月 30 日,正式推出了 P.800: Methods for subjective determination of transmission quality 标准。在这个标准里面有一个重要的指标被提出来,那就是今天被沿用最为普遍的主观评价标准 MOS(Mean Opinion Score)。app

图片 2.png

有些人可能以为这个标准好简单,不就是 1-5 分的打分么?但是事实上并非,主观的质量评价要想成为可重复使用的评价标准是很难的。不一样环境、心情、知识储备、职业、听力范围及灵敏度等等背景的人均可能会对同一个声音给予不一样的评分,甚至一我的在不一样时间和背景下对于同一段语音质量,也会给予不一样的主观评分。因此光有一个 MOS 评分是远远不够的,在标准里面还推荐了多种可行的测试方案,好比在 Listening-opinion tests 测试方案中给出了"Absolute Category Rating" (ACR) 。里面规定用短分组的不相关的句子测试,而且这些句子是经过一系列标准测试验证过的,而后在相同的测试方案下,相同的物理条件和传输系统下,来对比测试的结果。这样测试方案就具有较高程度的结果一致性。而这里说的物理条件包含很是的细致,例如测试线材、噪声(底噪;环境噪声)、噪声测量的位置。其中环境噪声还分为(房间噪声、车内噪声等)。除此之外对噪声测量的位置、建立链接、监听、仪器设备设计、对话任务等等都有一些建议。框架

说白了,这个标准事无巨细地列举了全部可能对主观评分一致性产生影响的因素,用不少不相关意义的短句组,在实验室能够控制的物理条件下,让不少被测试人员在相同环境下作对比测试,再作平均。这样的测试才能达到一致性标准,同时也具有了可行性。ide

但同时咱们也发现,组织这样的一场测试耗时耗力,实在是不适合快速的质量验证。尽管如此,它对于今天依然很是有意义,好比如今不少产品在通话结束后给用户的质量反馈打分,1 星到 5 星,虽然不能控制在相同的物理条件下,可是大量的用户主观评分几率分布依然能够相对客观地评价产品的主观质量。布局

最后,主观音频质量评价标准除了给出 MOS 这个有意义的评分标准,还给出了两个标准 MOSle 和 MOSlp,也很是有参考意义。测试

图片 3.png -MOSle-优化

图片 4.png

-MOSlp-编码

02 客观有参考音频质量评价标准:PESQ in P.862 & POLQA in P.863

主观评价体系创建后,因为其实现起来的高成本和低效率,并不适合企业快速验证系统的音频质量,因此客观标准的需求日益扩大。这个时候须要一个能够近似人类听觉体验的客观评价体系,而且能作到尽可能稳定。

作一个成熟稳定高度逼近人类听觉体验的评价标准很是难,因此客观标准的制定最初是创建在一套有参考信号的评价体系之上的。也就是评价的时候,同时须要待测信号和参考信号(不通过待测系统只通过测试设备环境回环的信号)。相较于无参考评价方案,有参考的客观评价方案更容易作得贴近主观评价体系。

但即便是有参考估计,想要全面模拟主观评价也仍是比较难的,随着算法不断发展和完善,评价从只考虑部分指标到考虑更多指标发展。好比在介绍 PESQ 以前,也有一些客观评价标准被推出,评价有一些局限性,如:perceptual speech quality measure (PSQM) 和 perceptual analysis measurement system (PAMS)。前者只能用于音频编码器的评估,然后者只能评估有限范围内的失真。

PESQ

ITU-T 在 2001 年 02 月发布的 P.862 里推出了一个新的方法:Perceptual evaluation of speech quality (PESQ),也是在一段时间内,业界普遍使用的方案。标准里这么说道:这是多年积累的结果,是一款不只适用于音频编码器,同时也适合 end-to-end 测试音频质量的评估方法。咱们从下面几个角度谈一谈 PESQ 吧。

一、PESQ 的测试方案

PESQ 如标准的描述,能够进行端到端的音频质量测试,把参考信号(Reference speech) line in 传入发送端(以下图是一个电话),通过电话网络到接收端,再 Line out 传出和直接回环(图里叫作参考路径 Reference path)的参考信号传入 PESQ 算法进行,有参考评估,最后生成 PESQ score。

图片 5.png

须要注意的是,参考信号并不是是随意选取的,标准对于输入的参考信号有较严格的限制,好比长度:8-30s 的长度,里面的每一个短句不能低于 3.2s,活动语音的占比 40%到 80%,语音音量:参考 ITU-T P.56 在-30dBov 同时避免溢出,等等。

二、PESQ 算法流程

标准在 PESQ 算里面针对多个部分作了详细的阐述,这里给出一个简单的 PESQ 的算法框架以下图:

图片 6.png

简单来讲:Time Alignment 把输入的活动语音段检测出来,再进行 delay 计算和语音分段,这个算法是能够兼容可变 delay 的。而后 PESQ Algorithm 在计算对齐的参考信号和待测信号,获得它们的频域的信号进行一些补偿后,转到响度域再根据心理声学模型,对比两个信号的感知差别。最后将差别 mapping 到 相似 MOS 分值的 PESQ score,取值范围在 -0.5 到 4.5。

三、PESQ 的有限性

  1. 只适用于窄带和宽带(2005 年 P.862.2 Wide-band Extension)音频。
  1. 只用于测量 one-way 语音的失真和噪声。对于响度下降、时延、回声等等方面和双边交互相关的,都没法评测。

  2. 多数状况下评分比较符合主观标准结果,但部分场景下和主观测试结果有一些差距。评分结果的分布的聚合性通常。标准里面也说明了,PESQ 是不能代替主观测试的,它只是一个具有参考意义的近似主观体验客观评价标准。

POLQA

随着时间的发展,更多的适用范围、更普遍的标准也一一涌现,如 2004 年 P.563 的 3SQM,还有一个就是一直沿用到今天、在有参考客观音频质量评价领域最新也是最大范围被应用的在 P.863 里出现 POLQA 标准。

一、POLQA 测试方案与算法框架

POLQA 的测试方案和 PESQ 同样,也用了参考信号来作对比,测试方案差很少。算法大框架也差距不大,可是用了全新的 Time Alignment 算法和全新的感知模型。这里就不展开了,给出一个核心模型流程图(没有包括 Time Alignment 和 Perceptual Model):

图片 7.png

二、重点说一下 POLQA 和 PESQ 的区别

这里转载 Pomy 在一份报告里面描写关于两个算法的一些地方的区别:

WechatIMG926.png

除了两个算法外,他还专门组织了"Absolute Category Rating" (ACR)测试,测试了 Human、 POLQA、PESQ 之间的区别,以下图:

图片 8.png

总的来讲,POLQA 不只支持全频带评测,还增长了对响度变化的评估,全新的感知模型评价体系使得 POLQA 和主观评测的结果更加接近。

03 客观无参考音频质量评价标准:E-model in G.107

前面介绍了主观音频质量评测标准和客观有参考音频质量评测标准,特别是当有了客观的有参考音频质量评价标准,企业能够很方便地测试系统的端到端音频质量,虽然不能彻底取代主观测试,可随着标准的更新,客观有参考评价标准会愈来愈接近主观评价且愈来愈稳定。可是不少企业也发现,即便有端到端的客观有参考评价标准,依然很难解决线上音频质量的实时监控。有没有一种指标能够在不须要参考信号的状况下,在某种程度上反应出主观音频质量的变化呢?

ITU-T 在 2015 年 6 月发布了 G.107,给出了一种计算模型专门评估端到端传输的音频质量评估,其算法模型叫 E-model。

一、E-model 的基本算法结构和框架

E-model 是在一个评估音频设备损伤叫作”Voice Transmission Quality from Mouth to Ear”的模型基础上衍生出来的。E-model 会把通话中发送端和接收端当成嘴到耳朵的评估,把通话分红发送端和接收端,而后把能考虑到一些能够量化的、对于声音质量有影响的因素都参考进来。以下图:

图片 9.png 其中 OLR:Overall Loudness Rating,SLR:Receive Loudness Rating, RLR:Receive Loudness Rating。E-model 的传输损伤等级因子 R 的公式为:

图片 10.png

其中:

R0:基础信号比

IS:传输时产生的同步损伤,由量化,链接等因素影响

ID:传输的时延损伤

Ie-eff:设备损伤系数

A:优点系数(和其余全部的传输参数都没有关系的)

每一个数值的计算都比较复杂,且参数较多,这里就不一一展开了。

二、E-model 的结果 R 如何导出 MOS

图片 11.png

三、关于 E-model 的一些感想

G.107 给咱们带来一套复杂的、完善度也相对较高的评估模型 E-model,这个模型在没有参考信号的状况下,把对于语音质量有影响的不少因子都考虑进去了。先不说能不能彻底靠近主观测试的评价体系,对于企业的线上实时音频质量监控也具有很大的指导意义。另外也有人提供了一些改良方案,例如加入网络 jitter 的系数对评价结果产生影响,固然是否是合适也须要在实践中验证了。

以上介绍了一个音频质量主观评价标准以及两个音频质量客观有参考评估标准,以及一个音频质量客观无参考的评价标准。值得再次申明的是,客观评价标准是不能代替主观标准的。虽然随着算法的提高,它愈来愈接近主观评价,但在实际问题的优化中,主观的听感是不能代替的。当主观听感感觉和客观指标产生了差别,既不能盲目相信少数人的少次测试听感结果,也不用盲目迷信客观标准,陷入了削足适履局面。

关注咱们,咱们将为你们持续分享更多关于音视频的技术干货、技术探索及最佳实践。

关于拍乐云

拍乐云成立于 2019 年,是国内第一家视频会议背景的实时互动通讯云服务提供商,汇聚了一大批专一于音频、视频、网络、AI 等领域的资深技术专家。经过 Pano SDK,企业开发者便可在全球范围内快速实现互动课堂、语音聊天室、视频社交、直播连麦、游戏语音、视频客服、远程医疗、办公协做等场景。

相关文章
相关标签/搜索