语音识别-信号处理篇

语音增强系列博文 连接前端和后端的语音识别(ASR)的关键是给到后端(根据特征判定词/句)系统的特征类型和特征质量,对于传统的语音识别系统常采用MFCC(mel-frequency ceptral coefficients),这个特征对于高斯白噪声和混响具有鲁棒性,对于有色和相干干扰,常采用一阶和二阶微分减小其对MFCC系数的影响,该方法计算量相对较小;对于深度学习,通常采用Fbank做为特征而非
相关文章
相关标签/搜索