【计算机科学】【2016.06】基于神经网络的鲁棒实时语音识别中的音频分割

时间 2020-12-23

原文原文链接

本文为德国卡尔斯鲁厄理工学院（作者：Micha Wetzel）的学士论文，共57页。多媒体内容损害了自动语音识别（ASR）系统的识别精度和速度。本学士学位论文介绍了一种分段器，通过检测音频源中的音乐和噪声片段并用静音代替，来提高实时ASR系统的性能。提出了一种由帧分类和平滑两步组成的方法。大小为10毫秒的音频帧用分类模型分类为语音、音乐或噪声。以神经网络和支持向量机为模型，对多种设置进行了比较，

>>阅读原文<<