基于深层神经网络的语音 加强方法研究

近年来,随着深层神经网络(在语音识别领域的成功应用,给了语音加强任务的研宄人员不少启发。的深层非线性结构能够被设计成一个精细的降噪滤波器。同时基于大数据训练,能够充分学
习带噪语音和干净语音之间的复杂的非线性关系。另外的训练是离线学习的,如同人同样,它能记住一些噪声的模式,于是能够很好地抑制一些非平稳噪声。算法

首先咱们提出了基于的语音加强方法框架,对数功率谱被用做训练模型的特征。则做为映射函数,能够从带噪语音中预测出干净语音。而的训练是分两步进行的,即预训练和有监督训练。预训练是基于受限玻尔兹曼机(的逐层贪婪式初始化,它能够防止陷入局部最优。而有监督调优能够精准地学习带噪语音和干净语音之间的非线性关系。网络

其次,是一种有监督的学习模型,凡有监督的模型都存在如何应对测试集不匹配问题,也即如何提高系统的泛化能力。上百种类型的噪声数据被用来构建大规模训练数据,以此提髙模型对未见的测试噪声环境的适应性。同时咱们发现,经过此种方法,系统对非平稳噪声有很是强的抑制能力。框架

再者,对测试中的不匹配带噪语音须要作自适应,这个不匹配主要有:能量不匹配,噪声环境不匹配和语言不匹配等方面。所以咱们分别在特征层面,提出了均值移位方法,来解决测试语音的特征分布不一致的问题。而对于噪声类型不匹配问题,咱们提出了一种动态的噪声告知训练方法,即先用动态地估计每一帧的噪声,而后用来辅助的学习。语言不匹配问题,主要存在于跨语种测试的时候,因为不一样语系发音上的差别性致使的丢音问题。咱们提出了经过转移学习的方法,来自适应地解决这个问题。函数

最后,对数功率谱上的最小均方偏差是训练的目标函数,可是直接去优化这个目标函数有必定困难的。咱们提出了一种间接的目标函数优化方式。考虑到对数功率谱域上的各个维度间是相互独立的,所以咱们把梅尔倒频谱参数(融合到系统中来,让去联合优化对数功率谱特征和特征。利用的每一个参数都包含了频率各个维度间的相关性来限制对对数功率谱的估计,以获得一个在频率各个维度上偏差更具备一致性的特征预测。除了这种连续性信息,咱们还能够用一些具备分类特性的元信息来做为对对数功率谱预测的辅助项,好比它显式地表征了当前时间频率单元是噪声主导的仍是语音主导的。另外,通过聚类的噪声编码也用来辅助对对数功率谱特征的学习。性能

语音加强的定义
语音加强是指干净语音在现实生活场景中受到来自各类噪声干扰时,须要经过必定的方法将噪声滤除,以提高该段语音的质量和可懂度的技术。学习

语音加强的分类
若是按照录音的通道数来划分,语音加强又分为单声道语音加强和麦克风阵列语音加强。单声道语音加强只利用了时域和频域的信息,而麦克风阵列语音加强不只利用了时域和频域的信息,还利用了空域的信息。测试

而若是按照语音加强的方法来分,能够分为无监督语音加强方法和有监督语音加强方法,前者也称为传统语音加强方法,传统语音加强算法虽然不须要离线训练,所需的计算资源也少,可是因为不少不合理的假设的存在,限制了它们的性能上限。而有监督语音加强方法是近些年提出的,利用既有的语音数据或噪声数据,训练相关的统计特性模型,其实就是如同人同样,先让系统学习并记住一些语音和噪声的模式,以此指导将噪声从带噪语音中分离出来。因为有监督语音加强方法充分利用了既有的数据,掌握了一些语音和噪声的统计特性,于是会获得更优的加强性能。可是在有监督的语音加强方法中,重点须要研究的是如何提高其泛化能力。大数据

带噪语音的信号模型
噪声和语音的相互做用关系是很是复杂的。通常认为有两种相互做用关系,即加性噪声和卷积性噪声。分别以下所示:优化

卷积性噪声的模型若是在频域又是乘积性的关系,故卷积性噪声又称为乘性噪声。但在现实生活场景中,加性噪声是主要的,特别是低信噪比的声学环境中,主要是加性噪声影响了语音的质量和可懂度。所以本论文的研究重点是加性噪声。若是对加性模型,也即公式的两边作短时傅里叶变换(可得加性噪声模型的频域表示,以下:编码

T和D分别表示该信号总共有多少中贞和总频带数。若是进一步在对公式的两边作平方操做,即获得:

其中表示噪声信号和语音信号间的余弦夹角值,通常的语音加强算法都假设噪声信号和语音信号之间相互独立,获得:

而这一般是不合理的假设,也影响了语音加强系统的性能上限。而本文提出的方法能够避免这一假设,进而获得更优的性能。

 

 

谱减法:谱减法的核心思想便是在非语音倾的地方迭代更新噪声的方差,而后将噪声的方差从带噪语音信号的能量中减掉即获得对干净语音信号的估计,以下所示:

所以,谱减法也遵循图的框架。并且从公式能够看出,若是噪声的方差过估计,容易形成语音失真;反之,若是噪声的方差欠估计,则容易产生“音乐噪声”。

 

 

维纳滤波法:维纳滤波法也是语音加强里的经典方法,它分时域和频域滤波两种形式。

而其估计的过程以下:
 

这里系统称为对的一种估计器,而经过读公式进行求导,最小化干净语音和估计语音之间的偏差,从而得到对滤波系统的最优估计,这须要解维纳霍夫方程。

若是对公式的两边进行频域转换,则根据时域卷积,频域则乘积,可得维纳滤波的频域形式:

再经过进一步求导和最小均方偏差可得维纳滤波的增益函数,也称为维纳增益

可是不得不提到的是,不管是谱减法,仍是维纳滤波法,抑或基于最小均方偏差的方法,都没法对非平稳噪声有效抑制,这是由于非平稳噪声具备突发性的特色,仅仅经过利用前面的非语音顿的信息来估计噪声的方差,很难对非平稳噪声进行有效跟踪。

同时须要指出的是,在信噪比比较低的状况下,传统单声道语音加强算法因为没法有效判断语
音巾贞,仍是非语音顿,一般也会发生误判的状况,这就致使了语音的严重丢失。同时,若是噪声的能量大于语音的能量,传统的单声道语音加强算法几乎没法将语音谱给恢复出来,而这对能力较低的辅音的语谱结构一般是毁灭性的。

----------------------------------------------------------------------------------------------------------------------------

基于浅层神经网络的语音加强:早在年,就有用浅层神经网络进行语音加强的研宄工做。图给出了利用浅层神经网络在时域上学习带噪语音和干净语音之间的相互做用关系(,每次输入的是个时间上的数据点,所以该网络的隐层节点数是个,该浅层神经网络每次的输出也是对应的个时域上的数据点,是对干净语音的预测。而该网络的初始化是随机的。可是在时域上,带噪信号和语音信号的值都比较随机,且在时域上,带噪语音和干净语音的相互关系可区分度不大,比较难以用浅层祌经网络这个简单的模型进行噪声和语音的分离。

相关文章
相关标签/搜索