深度学习+语音，基础普及篇笔记（一）

时间 2021-01-08

原文原文链接

深度学习应用领域，可以分为3大块：图像，语音，文字。最近有时间，研究下语音：（一）定义语音是一个连续的音频流，它是由大部分的稳定态和部分动态改变的状态混合构成。一个单词的发声（波形）实际上取决于很多因素，而不仅仅是音素，例如音素上下文、说话者、语音风格等。（二）语音识别其中有个图（连续语音识别框架图）看不清楚，如下：（三）结果评定 1、WER（Word error rate），单词错误

>>阅读原文<<