1994_An Algorithm To Reconstruct Wideband Speech From Narrowband Speech Based On Codebook Mapping

时间 2020-03-04

标签 algorithm reconstruct wideband speech narrowband based codebook mapping 繁體版

原文原文链接

博客做者：凌逆战git

博客地址：http://www.javashuo.com/article/p-cfiqxwdm-w.html算法

摘要

　　本文提出了一种从窄带语音中重构宽带语音的新算法，该算法有两个新的特色。第一是基于码本映射的频谱包络重构。第二是利用重构的频谱包络进行语音信号重构。因为该算法无需使用任何附加的发送信息就能生成高质量的语音(盲源)，因此它适用于任何网络，如现有的电话网络、支持模拟和ISDN服务的网络等。该算法应用于20个说话人。经过acoustic distance measure(声学距离测量)和listening tests confirms(听力测试验证)了算法的良好性能。网络

引言

　　近年来，高质量的声音已经经过CD（小型光盘）和LDs（激光光盘）变得熟悉起来，这就提升了现有服务的音质的需求。例如，一些调幅电台已经开始用立体声代替单声道广播。这些趋势代表，改进的质量是传统系统或现有服务中最重要的要求之一。在电话服务方面，一个要求是提供宽带语音而不是窄带语音。由于宽带语音是清晰的，而且精确地保留了说话人的身份，因此用户能够经过电话线更真实地交流[1][2]。app

　　本文提出了一种从电话语音中产生宽带语音的方法。由于模拟电话的带宽限制在300Hz~3.4kHz之间。该算法产生一个附加的低频信号（50hz-300Hz）和一个高频信号（3.4kHz-7.3kHz）。这generation基于两个假设，一是窄带语音与低频带和高频带信号密切相关；二是即便低频带和高频带信号不彻底正确，也能显著提升感知语音质量。该算法的一个优势是能够在不增长任何额外信息的状况下生成宽带语音。这使得它适用于任何网络，如现有的电话网、支持模拟和ISDN的网络等。此外，在传输带宽受限的状况下，如在移动通讯中，它也是有效的。ide

2 重建算法

　　该算法分为两个步骤，函数

步骤一：高频带和低频带的频谱包络重建。利用宽带语音集及其窄带版本生成映射函数，映射功能将窄带频谱的矢量映射到宽带频谱的矢量空间^[3]的码书实现的。
步骤二：合成低频带和高频带信号。低频带信号采用线性预测编码（LPC）来合成。在高频带信号合成方面，咱们考虑了LPC合成和波形叠加两种方法，最后将高频带和低频带信号叠加到电话语音中获得宽带语音。

　　下面解释这两个过程的细节性能

2.1 频谱包络产生

　　要从窄带频谱包络中产生宽带频谱包络，须要一对码本。其中一个码本包含宽带频谱包络，另外一个码本包含对应的窄带频谱包络。宽带频谱包络码本的码向量与窄带频谱包络的码向量具备一对一的对应关系。码本的制做步骤以下，下面步骤中的序号对应于图1中的数字。测试

宽带语音经过带通滤波器生成窄带语音
提取宽带和窄带语音频谱包络
使用LBG算法生成宽带码本^[4]
使用宽带码本对宽带语音中的语音进行矢量量化
利用时间关系，将窄带语音的频谱包络进行聚类
平均每一个窄带群集中的频谱包络，而后将其存储为窄带码本的码向量（当经过波形叠加产生高频信号时，须要其它码本）
选择具备最接近每一个码矢量频谱包络的宽带波形，经过高通滤波器和带通滤波器后，将其存储为表明波形

图1 码本生成算法框图编码

2.2 从窄带语音生成宽带语音

图2是生成过程的框图，步骤以下

用LPC分析输入窄带语音并提取基音、功率和频谱包络
使用窄带码本对每一个频谱包络进行矢量量化，并使用宽带码本对向量进行解码
产生低频信号。细节将在后面介绍
产生高频信号。细节将在后面介绍
对输入的窄带语音进行上采样
在（5）的输出中加入低频带和高频带信号，产生宽带语音

图2 生成过程框图

　　下面解释低频带和高频带信号的产生。利用LPC合成技术合成了低频信号。为了合成高频信号，提出了两种方法，一种是使用LPC合成法（方法1），另外一种是使用波形造成法（方法2），图三、4和5分别是低频信号生成、高频信号生成的框图（方法1和方法2）。

低频段产生

利用所分析的基音、功率和由宽带码本解码的频谱包络，经过LPC进行宽带语音合成。
（1）的输出经过低通滤波器提取低频带信号（在这种状况下，咱们使用STFT分析/合成^[5]做为低通滤波器）
将（2）的输出乘以一个常数，由于（2）的power（功率）insufficient（缺少）宽带语音。这就产生了低频带信号

低频段语音生成

高频带生成（方法1）

利用宽带码本解码后的基音、功率和频谱包络，用LPC合成宽带信号
经过高通滤波器（1）提取高频信号（在这种状况下，咱们使用STFT分析/合成做为高通滤波器）
将（2）的输出乘以余弦函数，以减少由LPC合成引发的脉冲，并使功率正常化。这就产生了高频信号

高频带信号生成（方法一）

高频带生成（方法2）

参考码矢量索引，获得两个waveform(波形)：一个来自窄带表明码本，另外一个来自高频表明码本。
检查波形是否为浊音（voiced）或清音（unvoiced）
若是是浊音，则经过基音同步重叠加法来合成窄带语音。若是没有浊音，则经过逐帧重叠加法合成窄带语音
计算（3）的输出与输入语音之间的功率比
用与（3）相同的方法合成高频信号
将（5）的输出乘以功率比，获得高频信号。

高频带信号生成（方法二）

3 性能评估

　　频谱失真和听觉测试评估了该算法的性能。实验条件如表1所示

　　“说话人相关”表示模型的训练数据和测试数来自同一我的，“说话人独立”表示不一样的说话人。

3.1 频谱失真评估

　　经过使用宽带码本和窄带码原本测量频谱失真，咱们使用了10位男性说话人和10位女性说话人。

　　VQ失真计算以下

（1）从宽带语音中提取频谱包络

（2）使用宽带码本进行矢量量化(1)

（3）分别计算低频和高频信号(1)和(2)之间的平方偏差。偏差定义以下

$$D=\sum_{t=0}^{T^{\prime}}\left[\frac{1}{2 \pi} \int_{a}^{b}\left[10 \log _{10} \frac{\hat{Y}_{t}(\omega)}{Y_{t}(\omega)}\right]^{2} d \omega\right]^{\frac{1}{2}}$$

重建失真计算方式以下

（4）经过滤波（1）中使用的语音得到窄带语音，并提取窄带频谱包络

（5）利用窄带码本和宽带码本重构（4）输出相对应的宽带频谱包络

（6）分别计算低频和高频信号（4）和（5）之间的平方偏差。偏差定义见（3）

　　实验结果如图6和图7所示。每一个失真值是全部说话人对的平均值。从结果来看，该算法能够像矢量量化同样精确地重建低频谱，而且重建失真随着码本尺寸的增大而减少（8bit码本会致使3.5dB的频谱失真），在高带宽重建方面，使用4bit码本，重建失真的下降在6.5dB处饱和。这代表，高频信号和窄带语音的相关系数没有低频信号和窄带语音的相关系数高。

表1：测试条件

训练数据数目：186个单词平衡了全部音素

分析窗函数：hamming

窗函数长度：21毫秒

帧移长度：3毫秒

LPC阶数：12

FFT点的数量：512

失真度量：LPC倒谱的欧氏距离

图6：频谱失真（低频段）

图7：频谱失真（高频段）

3.2 听力测试评估

　　进行配对比较听力测试。基于以上结果，分别用8bit和4bit码本对低频和高频信号进行了宽带语音生成。两名男发言人和两名女发言人以独立于发言者的方式受雇。随机从三个语音集中选择两个语音集：电话语音、使用方法1生成的语音和使用方法2生成的语音2。六位听众被要求选择一个比另外一个更宽的语音。使用了77对。

　　实验结果如图8所示。结果代表，该算法能有效地从电话语音中重建宽带语音。就产生高频的最佳方法而言，它们之间没有显著差别

图8：偏好得分

4 总结

　　提出了一种利用码本映射生成窄带语音宽带语音的算法，并从频谱失真的角度验证了算法的性能，在说话人相关和独立重构之间没有性能差别。听力测试证明，生成的宽带语音质量优于原始电话语音。咱们计划改进高频信号的产生过程，以提升与窄带信号的相关性

致谢

　　咱们感谢语音处理部门的成员进行了有价值的讨论。咱们也感谢语音和声学实验室主任北崎骏博士和语音处理小组组长杉村博士对这项工做的持续支持。

参考文献

[1] Y. Cheng, D. O'Shaughnessy, P. Mermelstein, "Statistical Re covery of Wideband Speech From Narrowband Speech, "Proceedings of ICSLP92， pp. 1577-1480，19922

[2] N. Jayant，"High-Quality Coding of Telephone ech and wideband Audio, Advances in Speech Sign cessing, pp85-108,1992

[3] M. Abe, S. Nakamura, K. Shikano, H. Kuwabara, "Voice conversion through vector quantization, "ICASSP，88, pp. 655-658，1988

[4] Y. Linde, A. Buzo, and R. M. Gray, " An algorithm for vector quantizer design, "IEEE Trans. Commun COM-28， 1， pp 8495（Jan.19805

[5] Lawrence R. Rabiner, Ronald W. Schafer "Digital Processing of Speech Signals”，