深度学习+语音,基础普及篇笔记(一)

深度学习应用领域,可以分为3大块:图像,语音,文字。最近有时间,研究下语音: (一)定义 语音是一个连续的音频流,它是由大部分的稳定态和部分动态改变的状态混合构成。 一个单词的发声(波形)实际上取决于很多因素,而不仅仅是音素,例如音素上下文、说话者、语音风格等。 (二)语音识别 其中有个图(连续语音识别框架图)看不清楚,如下: (三)结果评定 1、WER(Word error rate),单词错误
相关文章
相关标签/搜索