科大讯飞,百度,思必驰,云知声四款识别引擎降噪算法性能对比

大家好,上期小君给大家分享了语速对语音引擎识别的影响,相信大家对语速对识别的影响有了初步的认识。经过一个多月的调研,小君本期给各位带来了一次新的评测,即科大讯飞,百度,思必驰,云知声四家语音引擎在降噪性能上的差异。
本次评测主要是对比每家语音识别引擎降噪性能,采取将语音文件直接送接口的方式进行测试,接口同样是基于各家公司给广大语音开发爱好者提供的开源开发接口。
测试语音信息详情如下:
• 音频编码格式:wav
• 音频采样率:16000Hz
• 文本字数:每条平均8字左右,共计1586字。
• 音频分类:安静环境下音频、SNR=15环境下音频、SNR=5环境下音频(SNR为信噪比)
• 音频领域:手机基本操作,领域涉及有常用应用,导航,音乐,天气,设置,日期6个领域,共计200条
• 音频信息:北方自然语速,男女比例1:1,共计20人
• 噪音合成:采取噪音合成的方式对纯净音频进行加噪
• 噪音:中文歌曲

展示一下文本样例:

  1. 导航领域:请帮我绕开从王府井到西单的拥堵地段
  2. 设置领域:设置每周一早上7点的闹钟
  3. 手机基本操作领域:发短信给小明

由于本次测试采取的是直接将数据送入识别接口的方式进行,没有类似于终端产品对整个环境的收音模块,所以噪音不能直接以播放的方式进行增加,但咱们还得测试不同信噪比下的数据呢,难不倒小君的,小君有噪音合成工具!可以将选定的噪音数据与语音数据进行,且SNR可设定,问题解决,而且还能更好的保证噪音数据一致性!
语音识别引擎在噪音消除方面的性能好坏会基于产品的定位,对不同的噪音也会有不同的处理方式,本次小君选取噪音集为常用噪音集,中文歌曲;由于本次测试专注于降噪算法的对比,为了减少变量、保证数据一致性,选取的语音数据为消音室录制的语料。

测试数据的信息大家了解的差不多了,那让我们来看一下对比结果,来分析各引擎的优缺点吧。
首先我们通过识别引擎在不同噪音环境下进行识别率的对比,通过下图数据可以看出科大讯飞和思必驰在三种环境下识别率差异不大,识别率从安静环境到SNR=5环境下降了1%左右,表现较好。百度在安静条件的语音识别率达到了97.51%,SNR=15时识别率为96.35%,SNR=5时降到了81.26%,可以看出随着噪音声压级的增大,百度识别引擎的降噪算法性能出现了大幅度的下降;云之声则时安静条件到SNR=15时下降幅度较大,从94.41%下降到了89.78%。SNR=15到SNR=5时的识别率下降幅度较小。

然后再对四款语音识别引擎间进行识别率的对比,可以看出安静条件下,云之声较其他三款产品的识别率最低,识别率为94.41%;SNR=15时,科大讯飞和思必驰表现较好,云之声相对较差,识别率为89.78%;随着背景噪音声压级的增大,在SNR=5时,百度识别率下降幅度较大,下降到81.26%,云之声同样较差,识别率为87.33%。测试详细数据如下:
在这里插入图片描述
在这里插入图片描述
(备注:以上测评结果仅基于本次验证集)

综合以上两方面的对比,基于本次测试数据的测试结果可以看出,科大讯飞和思必驰在降噪处理方面综合表现较好,百度和云之声在该方面则表现较差。
另外小君在本次测试过程中发现一个有趣的现象,思必驰识别引擎在安静条件下要比SNR=15时的识别率要低0.19%。为了搞清楚这0.19%的差距在哪,小君将两组测试结果分别对比,发现差异并不大,仅有6条语音的识别结果存在差异,主要体现在安静条件下的替换错误增加,而SNR=15条件下插入错误增加,下面列举一下部分识别结果供大家参考。
在这里插入图片描述

本次小君仅从中文音乐噪音的消除性能方面对四款公开的识别引擎进行了对比,不作为评价四款识别引擎降噪性能好坏的评价标准。因为仅仅是音乐噪音又区分了不同的语言、高中低频等,如果您想了解识别引擎的整体降噪性能,需要多个维度进行测评,对语音识别引擎降噪算法的测试感兴趣的话,可以随时联系小君,小君表示热烈欢迎。