论文翻译：2018_Artificial Bandwidth Extension with Memory Inclusion using Semi-supervised Stacked Auto-en

时间 2020-03-04

标签论文翻译 artificial bandwidth extension memory inclusion using semi supervised stacked auto 繁體版

原文原文链接

做者：Pramod Bachhav, Massimiliano Todisco and Nicholas Evans前端

博客做者：凌逆战git

博客地址：http://www.javashuo.com/article/p-eetdyodc-r.htmlgithub

摘要

　　为了提升宽带设备从窄带设备或基础设施接收语音信号的质量，开发了人工带宽扩展(ABE)算法。以动态特征或从邻近帧捕获的explicit memory(显式内存)的形式利用上下文信息，在ABE研究中很常见，可是使用额外的信息会增长复杂性，并会增长延迟。之前的工做代表，无监督的线性降维技术有助于下降复杂性。本文提出了一种利用Stacked Auto-Encoder(堆叠自动编码器)进行降维的半监督非线性方法。与之前的工做进一步对比，它对原始频谱进行操做，从原始频谱中以数据驱动的方式学习低维窄带表示。三种不一样的客观语音质量指标代表，新特征能够与标准回归模型相结合来提升ABE的性能。学习到的特征和缺失的高频成分之间的相互信息也获得了改善，非正式的听力测试证明了语音质量获得了改善。算法

一、引言

　　虽然传统的窄带(NB)电话基础设施的带宽被限制在0.3-3.4kHz，但今天的宽带(WB)技术支持使用从50Hz-7kHz扩展的带宽来提升语音质量。为了提升宽带设备与NB设备或基础设施一块儿使用时的语音质量，研究了人工带宽扩展(ABE)算法。利用两个[1]之间的相关性，ABE利用现有NB份量估计3.4kHz以上缺失的高频份量，一般采用从WB训练数据中学习的回归模型。数据库

　　基于源滤波器模型的ABE方法估计了分离的频谱包络和激励份量[2,3]。其余ABE方法直接做用于推导出复杂的短时间频谱估计，例如使用傅里叶变换(STFT)[4,5]或constant-Q变换[6]。与短时间谱估计相补充的是某种形式的contextual information(上下文信息)或menory(记忆)，能够用来提升HB份量估计的可靠性。一些特定的后端回归模型，如隐马尔可夫模型(HMMs)[7,8]和深度神经网络(DNNs)[9 11]，以时间信息的形式捕捉memory。一些DNN解决方案，例如[4,12,13]，在前端捕获memory，例如，经过增量特性或来自相邻帧的静态特性。在研究了ABE[14]的前端特征提取以后，[15 17]的工做经过信息论分析研究了memory包含的优势。本研究在固定维数的约束下，经过增量特征证实了memory包含的好处。然而，为了适应动态增量特性，memory的包含须要丢失高阶静态HB特性。咱们本身的工做[18]定量地分析了固定ABE解决方案中显式内存包含的好处。该工做还解决了延迟和复杂性问题。使用主成分分析(PCA)来管理复杂性，以便在不增长特征维数的状况下归入memory；回归复杂度不受影响。PCA是一种无监督的线性降维方法，它的目标只是生成一个低维表示，尽量保留输入表示的变化。本文研究的假设是，监督或半监督和非线性降维技术为学习专门针对ABE的低维表示提供了可能，从而得到更好的性能。后端

　　自动编码器(AEs)是一种愈来愈受欢迎的非线性降维方法，已被普遍应用于许多语音处理任务，如音素/语音识别[19 21]和语音合成[22]。这些例子中常见的是使用AEs学习所谓的瓶颈特性，即针对模式识别和分类定制的紧凑特性表示。本论文研究了用堆叠_（deep）AEs来下降ABE的非线性维数，特别是用通过半监督训练的堆叠(deep)自动编码器。咱们的目标是网络

　　(i)在紧凑、低维的表示中利用memory，以提升估计的HB部分的可靠性;app

　　(ii)直接从原始频谱系数而不是手工制做的特征中学习NB特征。经过客观评价、信息论方法和非正式的听力测试来评估这两篇文章的价值。框架

　　本文的其他部分组织以下。第2节描述了一个基线ABE算法。第3节展现了如何应用半监督堆叠AEs来提升其性能。第4节实验工做，第5节结果，第6节结论。

二、基线ABE系统

图1：包含memory的基线ABE系统框图　　

　　图1显示了基线ABE系统。它与[18]中提出的基于源滤波器模型的方法是一致的。因为上面提供了完整的细节，因此这里只提供一个简要的概述。该算法由训练、估计和再合成三个部分组成。

　　训练分别使用NB和WB帧frame-blocked(阻塞信号)$x_t$和$y_t$进行，其中t为时间指标。采用10 log-Mel滤波能量系数(logMFE)对NB份量进行参数化($X_t^{NB}$--训练框架的顶层)。经过选择线性预测(SLP)[23]对HB份量进行参数化，获得9个线性预测(LP)系数和一个增益参数($Y_t^{HB}$ -训练框架的底端)。NB和HB特征通过均值和方差正态化($mvn_x$和$mvn_y$)，获得$X_{t,mvn}^{NB}$和$Y_{t,mvn}^{HB}$。将t时刻的NB特征与从$\delta $相邻帧中提取的特征串联起来，获得

$$X_{t,conc\_\delta }=[X_{t-\delta ,mvn}^{NB},...,X_{t ,mvn}^{NB},...,X_{t+\delta ,mvn}^{NB}]^T$$

　　为了限制复杂性，采用PCA(主成分分析法)将$X_{t,conc\_\delta}$降为10维特征$X_{t,pca\_\delta}^NB$。主成分分析矩阵$W_{PCA}$是从训练数据中学习而来，在估计步骤中保持不变。最后，使用串联$Z=[X_{t,pca\_\delta}^{NB}, Y_{t,mvn}^{HB}]^T$从训练数据中学习128份量全协方差高斯混合模型（GMM）。

　　对上采样过的NB信号$\hat{x}$进行估计。按照训练中相同的NB处理和memory inclusion进行处理获得10维特征$\hat{X}_{t,pca\_\delta}^{NB}$。而后将训练中学习的GMM参数定义的传统回归模型[2]用于估计HB特征$\hat{Y}_{t,mvn}^{HB}$。利用训练获得的均值和方差，采用逆均值和方差归一化（$mvn_y^{-1}$）估计HB LP系数$\hat{a}^{HB}$和增益$\hat{g}^{HB}$。

　　根据图1中编号块所示的三个不一样步骤进行从新合成。首先(框1)由NB LP参数$\hat{g}^{NB}$、$\hat{a}^{NB}$和估计的HB参数$\hat{g}^{HB}$、$\hat{a}^{HB}$定义的$\hat{x}_t$的NB和HB功率谱估计缺失WB功率谱。而后利用逆快速傅里叶反变换(IFFT)和Levinson-Durbin递归，从WB功率谱中获得估计的WB参数$\hat{g}^{WB}$和$\hat{a}^{WB}。第二(框2)采用由$\hat{g}^{NB}$和$\hat{a}^{NB}$定义的LP分析滤波器获得NB激励$\hat{u}_t^{NB}$。而后应用频谱平移[3]和高通滤波器(HPF)获得HB激励份量$\hat{u}_t^{HB}$，在适当的延迟D后加入$\hat{u}_t^{NB}$获得扩展的WB激励$\hat{u}_t^{WB}$。最后(框3)使用$\hat{g}^{WB}$和$\hat{a}^{WB}$定义的合成滤波器对$\hat{u}_t^{WB}$进行滤波，以从新合成语音帧$\hat{t}_t$。重叠和相加(OLA)获得扩展的WB语音$\hat{y}$。

三、ABE使用半监督堆叠的自动编码器

　　基线ABE算法采用无监督的线性降维方法，使得在训练中学习并用于估计的标准回归模型的复杂度因为memory inclusion而保持不变。本文的工做是利用一种半监督的、非线性的、使用堆叠式自动编码器的降维技术来提升ABE的性能。

3.1 堆栈式自动编码器

　　自动编码器(AE)是一种普遍用于学习高级数据表示的人工神经网络。声发射由编码器和解码器组成。编码器f()根据:

$$公式1：y=f_{\theta}(x)=s(Wx+b)$$

其中o = fW;bg为权矩阵W和偏置向量b的参数集，函数s为非线性变换。编码器后面是解码器g 0()，其目的是根据所学习的表示y重构原始输入:

$$z=g_{{\theta}'}(y)={s}'({W}'y+{b}')$$

其中0 = fW0;根据输入x的性质，b0g和s0能够是线性变换，也能够是非线性变换。利用均方偏差(MSE)目标损失函数对0g进行优化，该函数反映了输入和重建输出之间的差别。

　　更深层次的网络天生具备更强的能力来学习高度非线性和复杂的函数[24]。经过叠加多层编码器和解码器，能够增长声发射的深度，从而造成叠加式自动编码器(SAE)。然而，随着网络的增加，网络要找到全局最小[25]变得愈来愈困难。

　　为了缓解这些问题，一般采用某种形式的预训练来初始化网络权值。流行的解决方案包括使用受限玻尔兹曼机(RBMs)[25]进行预培训，以及对AEs[26]进行降噪。层在训练前堆积，而后进行微调。其余工做研究了网络初始化的替代方法，如[27,28]。

3.2 应用ABE

　　经过基于重构的目标损失函数，SAEs能够学习输入和重构输出之间的简单映射，而不是有意义的高级表示[26]。此外，因为没有监督，从传统SAE的瓶颈层提取的特征没有明确设计用于分类或回归;在这方面，它们可能不是最优的。在[24]中，部分监督的AEs预训练被证实是有益的，特别是对回归任务。

　　在此基础上，咱们探索了SAEs的半监督训练，以便学习专门为回归建模和ABE设计的紧凑表示。获得的具备两个输出层的半监督SAE (SSAE)体系结构如图2所示。一个输出层学习用传统的SAE重构输入(AE输出)，另外一个输出层学习估计缺失的HB特征(回归输出)。这是经过给出的联合目标损失函数来实现的

其中Lreg和Lae分别为回归和AE输出的目标损失函数，其中c2 [0];1]加权我的损失的贡献。

　　SSAE体系结构还能够用于直接从回归层估计HB组件。在[29]中报道了一个相似的基于CNN的体系结构，该结构设计用于规范化短i-向量到长i-向量的映射，用于演讲者的二值化任务。这里的重点是不一样的，即。，规范/监督降维，以保存对ABE相当重要的信息。这些信息被一个标准的回归模型所利用。为了研究基于ssa的降维方法的优势，将图1(红色框)中的权值矩阵WPCA替换为SSAE编码器(图2中的红色框)，而后对提取的低维特征进行均值和方差归一化。GMM的训练和估计按照第2节中描述的相同方式执行。本文还报道了这种方法的一个变体，即低维NB表示直接从NB对数功率谱(LPS)系数而不是logMFE特征获得。这是经过用LPS系数替换logMFE特性来实现的。

四、实验

　　实验旨在比较使用PCA降维MPCA 2的基线ABE系统与使用SSAE降维MAE 2的基线ABE系统的性能。系统mpca2和MAE 2分别使用^X NB t;pca 2和^X NB t;ae 2;mvn特性。本节描述用于ABE实验的数据库、SSAE配置细节和度量。

4.1 数据集

　　TIMIT数据集[30]用于培训和验证。将训练集中的3696个话语和测试集中的1152个话语(不含核心测试子集)按照[6]中描述的步骤处理并行的WB和NB语音信号，训练ABE解。TIMIT核心测试子集(192条语句)用于验证和优化网络参数。受[31]中提出的分析方法的启发，使用由1378个语音组成的声学不一样TSP数据库[32]进行测试。将TSP数据降采样至16kHz，并进行相似的预处理，获得并行的WB和NB数据。

4.2 SSAE训练和配置

　　SSAE是使用Keras工具包[33]实现的。与以前的工做[18]一致，特性Xt;将t时刻的conc2(由前两帧和后两帧拼接而成)输入SSAE。AE输出与输入相同，回归输出设为HB feature Y HB t;mvn。为了提升收敛速度到全局最小值，根据[28]中描述的方法对SSAE进行初始化。优化是根据[34]中描述的程序进行的，标准学习率为0.001，动量为0.9,MSE标准。

　　咱们研究了两种6层对称SSAE结构，它们在隐层中具备不一样的单元数:1)5十二、25六、十、25六、512 (Arch-1);2) 102四、5十二、十、5十二、1024 (Arch-2)。输出层由50个(AE)和10个(回归)单元组成。隐层具备tanh或ReLU激活单元，而输出层具备线性激活单元。研究了辍学(dr)[35]和批量标准化[36]技术，以防止过分拟合。当验证损失在连续两个时点之间增长时，学习率下降了一半。回归和AE损失权重均设为c=0.5。网络被训练了30个时代。

4.3 度量

　　业绩报告是根据客观评价。目标光谱失真测量包括:均方根对数光谱失真(RMS-LSD);所谓的COSH测度(对称版的Ikatura-Saito失真)[37]计算的频率范围为3.4-8kHz，并将WB扩展到感知分析的语音质量算法[38]。后者给出了平均意见得分的客观估计(mo - lqowb)。经过互信息(MI)[14]测量SSAE和PCA表示与HB特征的相关性。

五、结果

　　表1显示了激活(bn-a)以后或激活(bn-b)以前执行的两种不一样体系结构和四种不一样的dropout (dr)和批处理规范化组合的MSE的验证性能。在全部隐藏层以前使用Dropout层。相对较低的MSE值是在没有退出或批量标准化(配置A)的状况下实现的，尽管对于具备ReLU激活的Arch-2来讲性能不好。在没有批处理规范化(configuration D)的状况下使用dropout会致使网络的非规范化，特别是对于ReLU激活。相似的观察在[31]中也有报道。使用任何一种没有退出的批处理正常化方法均可以获得较低的MSE值，最好的结果是使用bn-b配置(C)获得的。本文其他部分报告的全部结果都与此配置有关。

表1:不一样SSAE配置的平均MSE，包括体系结构1和体系结构2，具备ReLU或tanh激活函数，具备或不具备dropout (dr)和batch normalisation (bn)(在(a)激活后或激活前)。dr值表示被设置为0的随机隐藏单元的分数。使用验证数据集对评估结果进行了说明。

　　从测试集以及基线MPCA 2和基于ssa的MAE 2到ABE方法中得到的性能指标如表2所示。只有一个例外，光谱失真度量结果显示SSAE值低于基线值。SSAE系统的莫斯- lqowb评分始终较高。激活tanh的Arch-2 SSAE系统性能最好。不幸的是，尽管客观表现指标有使人信服的改进，非正式的听力测试显示基线和SSAE系统产生的语音信号质量之间几乎没有明显的差别。

表2:目标性能度量结果。在dB中，RMS-LSD和dCOSH是平均光谱失真度量(低值表示更好的性能)，而莫斯- lqowb值反映质量(高值表示更好的性能)。

　　表3显示了使用LPS输入(而不是logMFE特性)训练的两种性能最佳的SSAE配置Arch-1C和Arch-2C(都是tanh激活)的目标性能度量。失真测量值始终较低，而莫斯- lqowb评分始终高于全部其余基于ssa的系统的结果。与使用logMFE功能的SSAE系统的结果相反，非正式听力测试显示，与使用基线ABE系统生成的语音相比，语音质量有明显改善。在logMFE和LPS输入上运行的基线和SSAE系统产生的带宽扩展语音的例子能够在网上找到。

表3:使用原始对数功率谱(LPS)输入代替对数- mel滤波能量(logMFE)对SSAE进行客观评价的结果。

　　最后一组结果旨在进一步验证客观和非正式听力测试的结果。这是经过观察改善之间的互信息(MI)和真正的学会了NB表示HB表示测量使用测试集。128 -组件fullcovariance GMM和联合训练向量由学会NB和真正的HB特性用于MI估计如[18]所述。表4所示的MI结果代表，使用LPS输入训练tanh激活的Arch-2C SSAE系统的MI相对于基线系统增长了23%。这一结果证明了上述发现，即对原始光谱输入进行操做的半监督技术可以学习更好的表示，从而提升ABE性能。

表4:互信息评估结果。我(X;表示特征X与特征Y之间的MI。

六、结论

　　提出了一种用于人工带宽扩展的非线性半监督降维方法。进一步利用叠置自编码器学习高阶表示的能力，直接从原始光谱中学习紧凑窄带特征。该方法的优势经过不一样的客观指标获得了证实，并经过非正式听力测试的结果获得了证明。信息理论分析证明了新特征的有效性。在不增长复杂度的状况下，标准的回归模型可使用以数据处理方式从原始光谱中提取的特征。利用潜在的光谱模型转换及其进一步优化来学习ABE的特性应该是咱们将来的重点。进一步的工做还应该研究半监督的自动编码器与非监督或部分监督的训练前方法的结合。这些可能提供了更大的潜力，以提升人工带宽扩展语音的质量。

七、参考文献

[1] Y. Cheng, D. O’Shaughnessy, and P. Mermelstein, “Statistical recovery of wideband speech from narrowband speech,” IEEE Trans. on Speech and Audio Processing, vol. 2, no. 4, pp. 544–548, 1994.
[2] K.-Y. Park and H. Kim, “Narrowband to wideband conversion of speech using GMM based transformation,” in Proc. of IEEE
Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP),vol. 3, 2000, pp. 1843–1846.
[3] P. Jax and P. Vary, “On artificial bandwidth extension of telephone speech,” Signal Processing, vol. 83, no. 8, pp. 1707–1719, 2003.
[4] K. Li and C.-H. Lee, “A deep neural network approach to speech bandwidth expansion,” in Proc. of IEEE Int. Conf. on Acoustics,Speech and Signal Processing (ICASSP), 2015, pp. 4395–4399.
[5] R. Peharz, G. Kapeller, P. Mowlaee, and F. Pernkopf, “Modeling speech with sum-product networks: Application to bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing, 2014, pp. 3699–3703.
[6] P. Bachhav, M. Todisco, M. Mossi, C. Beaugeant, and N. Evans, “Artificial bandwidth extension using the constant Q transform,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP), 2017, pp. 5550–5554.
[7] C. Ya˘gli and E. Erzin, “Artificial bandwidth extension of spectral envelope with temporal clustering,” in Proc. of IEEE Int. Conf.on Acoustics, Speech, and Signal Processing (ICASSP), 2011, pp.5096–5099.
[8] I. Katsir, D. Malah, and I. Cohen, “Evaluation of a speech bandwidth extension algorithm based on vocal tract shape estimation,” in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). VDE, 2012, pp. 1–4.
[9] Y. Wang, S. Zhao, D. Qu, and J. Kuang, “Using conditional restricted boltzmann machines for spectral envelope modeling in speech bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), 2016, pp.5930–5934.
[10] Y. Gu, Z.-H. Ling, and L.-R. Dai, “Speech bandwidth extension using bottleneck features and deep recurrent neural networks.” in Proc. of INTERSPEECH, 2016, pp. 297–301.
[11] Y. Wang, S. Zhao, J. Li, J. Kuang, and Q. Zhu, “Recurrent neural network for spectral mapping in speech bandwidth extension,” in Proc. of IEEE Global Conf. on Signal and Information Processing(GlobalSIP), 2016, pp. 242–246.
[12] B. Liu, J. Tao, Z. Wen, Y. Li, and D. Bukhari, “A novel method of artificial bandwidth extension using deep architecture,” in Sixteenth Annual Conf. of the Int. Speech Communication Association,2015.
[13] J. Abel, M. Strake, and T. Fingscheidt, “Artificial bandwidth extension using deep neural networks for spectral envelope estimation,” in Proc. of Int. Workshop on Acoustic Signal Enhancement(IWAENC). IEEE, 2016, pp. 1–5.
[14] P. Jax and P. Vary, “Feature selection for improved bandwidth extension of speech signals,” in Proc. IEEE Int. Conf. on Acoustics,Speech, and Signal Processing (ICASSP), 2004, pp. I–697.
[15] A. Nour-Eldin, T. Shabestary, and P. Kabal, “The effect of memory inclusion on mutual information between speech frequency bands,” in Proc. of IEEE Int. Conf. on Acoustics, Speech, and Signal Processing (ICASSP), vol. 3, 2006, pp. III–III.
[16] A. Nour-Eldin and P. Kabal, “Objective analysis of the effect of memory inclusion on bandwidth extension of narrowband speech,” in Proc. of INTERSPEECH, 2007, pp. 2489–2492.
[17] ——, “Mel-frequency cepstral coefficient-based bandwidth extension of narrowband speech,,” in Proc. of INTERSPEECH,2008, pp. 53–56.
[18] P. Bachhav, M. Todisco, and N. Evans, “Exploiting explicit memory inclusion for artificial bandwidth extension,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2018, pp. 5459–5463.
[19] J. Gehring, Y. Miao, F. Metze, and A. Waibel, “Extracting deep bottleneck features using stacked auto-encoders,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2013, pp. 3377–3381.
[20] T. Sainath, B. Kingsbury, and B. Ramabhadran, “Auto-encoder bottleneck features using deep belief networks,” in Proc. of IEEE Int. Conf. on Acoustics, Speech and Signal Processing (ICASSP),2012, pp. 4153–4156.
[21] D. Yu and M. Seltzer, “Improved bottleneck features using pretrained deep neural networks,” in Twelfth Annual Conf. of the Int.Speech Communication Association, 2011.
[22] S. Takaki and J. Yamagishi, “A deep auto-encoder based lowdimensional feature extraction from fft spectral envelopes for statistical parametric speech synthesis,” in Proc. of IEEE Int. Conf.on Acoustics, Speech and Signal Processing (ICASSP), 2016, pp.5535–5539.
[23] J. Markel and A. Gray, Linear prediction of speech. Springer Science & Business Media, 2013, vol. 12.
[24] Y. Bengio, P. Lamblin, D. Popovici, and H. Larochelle, “Greedy layer-wise training of deep networks,” in Advances in neural information processing systems, 2007, pp. 153–160.
[25] G. Hinton and R. Salakhutdinov, “Reducing the dimensionality of data with neural networks,” science, vol. 313, no. 5786, pp. 504–507, 2006.
[26] P. Vincent, H. Larochelle, I. Lajoie, Y. Bengio, and P.-A. Manzagol,“Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion,”Journal of Machine Learning Research, vol. 11, no. Dec, pp.3371–3408, 2010.
[27] X. Glorot and Y. Bengio, “Understanding the difficulty of training deep feedforward neural networks,” in Proc. of the Thirteenth Int.Conf. on Artificial Intelligence and Statistics, 2010, pp. 249–256.
[28] K. He, X. Zhang, S. Ren, and J. Sun, “Delving deep into rectifiers:Surpassing human-level performance on imagenet classification,” in Proc. of the IEEE int. conf. on computer vision, 2015, pp. 1026–1034.
[29] J. Guo, U. A. Nookala, and A. Alwan, “CNN-based joint mapping of short and long utterance i-vectors for speaker verification using short utterances,” Proc. of INTERSPEECH, pp. 3712–3716, 2017.
[30] J. Garofolo, L. Lamel, W. Fisher, J. Fiscus, and D. Pallett,“DARPA TIMIT acoustic-phonetic continous speech corpus CDROM.NIST speech disc 1-1.1,” NASA STI/Recon technical report N, vol. 93, 1993.
[31] J. Abel and T. Fingscheidt, “Artificial speech bandwidth extension using deep neural networks for wideband spectral envelope estimation,” IEEE Trans. on Audio, Speech, and Language Processing,vol. 26, no. 1, pp. 71–83, 2018.
[32] P. Kabal, “TSP speech database,” McGill University, Database Version : 1.0, pp. 02–10, 2002.
[33] F. Chollet et al., “Keras,” https://github.com/keras-team/keras,2015.
[34] D. Kingma and J. Ba, “Adam: A method for stochastic optimization,” arXiv preprint arXiv:1412.6980, 2014.
[35] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov, “Dropout: A simple way to prevent neural networks from overfitting,” The Journal of Machine Learning Research,vol. 15, no. 1, pp. 1929–1958, 2014.
[36] S. Ioffe and C. Szegedy, “Batch normalization: Accelerating deep network training by reducing internal covariate shift,” in Int. conf.on machine learning, 2015, pp. 448–456.
[37] R. Gray, A. Buzo, A. Gray, and Y. Matsuyama, “Distortion measures for speech processing,” IEEE Trans. on Acoustics, Speech,and Signal Processing, vol. 28, no. 4, pp. 367–376, 1980.
[38] “ITU-T Recommendation P.862.2 : Wideband extension to Recommendation P.862 for the assessment of wideband telephone networks and speech codecs,” ITU, 2005.