远距离混合语音识别方法的研究

时间 2019-11-12

标签远距离混合语音识别方法研究繁體版

原文原文链接

深度神经网络的基本原理

在 DNN 声学模型应用于语音识别中，较以前的浅层神经网络参数初始化的方法略有不一样。早期的神经网络参数的初始化主要是随机进行初始化的，而 DNN 参数的初始化值主要是利用大量的语音数据输入生成一个具备多个隐含层的生成性模型。DNN 的基本框架图 2.3 所示。算法

图 2.3 表示语音数据通过 DNN 的输入层，获得的特征参数再利用深度信念网络 [39-41]进行逼近，这种训练过程称为预训练过程。在网络结构的最后一个隐含层加入 softmax 函数，从而获得输出层值，而后用初始化后的网络权重利用反向传播算法（Back Propagation，BP）对网络的权重精确的微调（fine-tuning），以便获得准确的网络权重。DBN 是经过多个受限玻尔兹曼机制的神经单元构建而成的。网络

基于优化阵列参数的远距离语音识别方法框架

远距离语音识别的方法通常是为了提升语音信号质量，也就是针对信号加强和提升信噪比这两方面。这些方法大多数状况下关注的是可以经过麦克风阵列的输出端获得一个最佳的语音信号波形，所以这些方法依据的是不一样的信号准则对远距离语音进行处理，例如最大化信噪比原则和来波方向最小化失真准则。然而，在这些准则下，并无改善对语音识别来讲相当重要的特征参数，进而阵列处理后的语音信号并无明显改善。函数

因为语音识别不只是信号处理领域，一样属于模式识别领域。语音识别的基本过程是把采集到的语音波形变换成特征参数向量，而后用语音识别器把特征参数向量和统计模型一一进行匹配，获得了使正确分类的状态序列似然几率最大，最终经过状态序列来获得识别结果。优化

所以，麦克风阵列处理问题总结为寻找使最大化正确假设几率的阵列参数。论文是在滤波求和波束造成算法中解决该问题的。所以，该方法称之为最大化似然几率波束造成，也就是优化阵列参数的方法[26,45]。同步

首先对阵列采集到含噪的语音信号信息，进行多通道的语音信号的时延估计并对其时延补偿，而后通过滤波-求和波束造成处理，把多路信号变为一路下降噪声的纯净语音信号，滤波器系数表明了阵列参数。当训练的过程当中，由语音识别器输出的假设录音反馈回来进一步调整阵列参数向量，使得阵列参数向量获得进一步优化，产生的最大化特征参数，由最大化特征参数最后获得最大化正确假设的似然几率。数学

波束造成[48-49]的基本思想是指在麦克风阵列采集语音信号时，因为信号通过不一样的路径到达麦克风阵列，致使采集到的语音信号有延迟，所以为补偿各个麦克风获得信号的时间延迟，进行时间上的延迟补偿，可以使多通道的信号同步的汇集在所指望的方向上，所以某一特定方向的指望信号强度被增强，相反的，那些不指望的信号或者噪声被抑制或者消除，最终将获得的全部同步信号进行加权求和。io

这个处理过程用数学公式表示为原理

那么由延时求和波束造成算法延伸到滤波求和波束造成的算法[50-51]。表达式为神经网络