对带噪语音作噪声抑制,在远场语音识别和通话中都会用到,也都会碰到一个矛盾,是尽可能的消除噪声即使对语音有损伤,仍是尽可能的不损伤语音即使保留一些噪声呢?算法
笔者这些年,接触了很多语音识别行业和通话行业的人,你们都在说,咱们是两个行业,虽然噪声抑制的原理差很少,可是一个是给机器听的,一个是我的听的。原理
那么具体有什么不一样呢?方法
语音识别行业的说,咱们不须要降那么干净,不能损伤语音,不然会影响识别的效果。大家通话行业,能够降得狠一些,反正人的纠错能力很强,对语音损伤一点关系不大。数据
而通话行业的说,咱们是给人听的,温馨度最重要,宁肯噪声多留一点,也不能损伤语音。大家识别行业,能够降得狠一些,反正给机器听,能识别出来就行。行业
哈哈,两个行业对对方的认知居然有这么大差别,不知不觉中居然走到了一条路线上来,最终结果呢?都是但愿不损伤语音。
其实语音识别行业和通话行业,对降噪的最大差异是:是否是要求按帧实时处理。
语音识别行业根据使用场景,是能够积累必定的数据量再处理的,而通话行业,则必须是按帧实时处理。
加上这个限定,通话行业对噪声抑制的算法要求更苛刻一些,在语音识别行业能够用的方法,改为按帧实时后,效果每每会打折扣。