春节后到如今近两个月了,没有更新博客,主要是由于工做的关注点正从传统语音(语音通讯)转向智能语音(语音识别)。部门起了个新项目,要用到语音识别(准备基于Kaldi来作)。咱们以前作的传统音频已基本成熟,就开始关注在语音识别上了。对于咱们来讲,这是个全新的领域(虽然都是语音相关的,可是语音通讯偏信号处理,传统语音识别方法偏几率统计),须要学习的知识不少,因此这段时间主要是在学习新知识了,主要学习了数学(高数/线性代数/几率统计,这应该算复习)、机器学习基础知识、深度学习、语音识别传统方法等。因为刚开始学,还没实践,有的仍是只知其一;不知其二。学的过程当中也要有输出(把本身学的知识讲给组内其余同窗听,并一块儿讨论,让你们都快速入门),这也能促进把学的东西掌握的更好。我花了两周的时间学习了语音识别的传统方法(主要学习方式是看文档和博客),基本上掌握了其方法,也作了PPT给组内同窗讲(作PPT时用了一些博客上的图,谢谢这些博主,这里就不一一列举了)。今天就把这个PPT share出来,给也想入门语音识别的朋友作个参考。因为还没实践,有什么不太准确或不许确的地方还请指出。机器学习
语音识别传统方法主要分两个阶段:训练和识别,训练阶段主要是生成声学模型和语言模型给识别阶段用。传统方法主要有五大模块组成,分别是特征提取(获得每帧的特征向量),声学模型(用GMM从帧的特征向量获得状态,再用HMM从状态获得音素)、发音字典(从音素获得单词)、语言模型(从单词获得句子)、搜索解码(根据声学模型、发音字典和语言模型获得最佳文本输出),即从帧获得特征向量(特征提取干的话),从特征向量获得状态(GMM干的话),从状态获得音素(HMM干的话),从音素获得单词(发音字典干的活),从单词获得句子(语言模型干的活)。传统方法除了在特征提取上用到信号处理知识,其他全都是几率统计等知识,因此说语音识别和语音通讯是两个彻底不一样的领域。学习
通过近十年的发展,语音识别已经从传统方法演进到基于深度学习的方法,识别率也有了质的提高,并且还在快速的演变中,如今商用的语音识别系统都是基于深度学习实现的。对于传统方法而言,只会出如今文章教材中了,但做为新手,在入门时学习它仍是颇有必要的。只有了解了传统方法再去学习深度学习方法,才知道深度学习方法是怎么样基于传统方法一步步演变的。下面就是个人PPT。3d