语音识别算法原理文档整理（九）

时间 2021-01-16

原文原文链接

数据文件内容简介数据准备阶段的输出包含两部分。一部分与―数据相关（保存在诸如data/train/之类的目录下），另一部分则与语言相关（保存在诸如data/lang/之类的目录下）。数据部分与数据集的录音相关，而―语言部分则与语言本身更相关的内容，例如发音字典、音素集合以及其他Kaldi需要的关于音素的额外信息。如果你想用已有的识别系统和语言模型对你的数据进行解码，那么你只需要重写―数据部分。

>>阅读原文<<