【计算机科学】【2016.06】基于神经网络的鲁棒实时语音识别中的音频分割

本文为德国卡尔斯鲁厄理工学院(作者:Micha Wetzel)的学士论文,共57页。 多媒体内容损害了自动语音识别(ASR)系统的识别精度和速度。本学士学位论文介绍了一种分段器,通过检测音频源中的音乐和噪声片段并用静音代替,来提高实时ASR系统的性能。提出了一种由帧分类和平滑两步组成的方法。大小为10毫秒的音频帧用分类模型分类为语音、音乐或噪声。以神经网络和支持向量机为模型,对多种设置进行了比较,
相关文章
相关标签/搜索