产业:算法
Nuance:全球最大的语音识别技术提供商
IBM:具备强大数学底蕴的老牌语音识别研究机构
Microsoft:Vista操做系统中首次加入语音识别功能
Google:凭借互联网方面的优点GOOG-411,音乐搜索网络
学术:框架
Cambridge:HTK工具对学术界研究推进巨大
CMU:SPHINX-李开复
SRI,MIT,RWTH,ATR异步
语音识别实用化方面的两种论调 工具
悲观:缺乏杀手级应用,与人类的语音识别水平还有很大差距
乐观:Nuance能如此成功,计算机存储和运算能力的不断提升操作系统
语音识别各类具体应用路由
命令词系统
识别语法网络相对受限,对用户要求较严格
菜单导航,语音拨号,车载导航,数字字母识别等等
• 智能交互系统
对用户要求较为宽松,须要识别和其余领域技术的结合
呼叫路由,POI语音模糊查询,关键词检出
• 大词汇量连续语音识别系统
海量词条,覆盖面广,保证正确率的同时实时性较差
• 结合互联网的语音搜索
实现语音到文本,语音到语音的搜索同步
语音识别基本原理数学
贝叶斯统计建模框架(MAP/最大后验几率决策准则)it
声学特征提取
简单来讲, x是一个帧序列,而每帧就是一个多维向量
声学模型
声学单元应该具备的特性
• 一致性:不一样语音实例中相同的语音单元在声学上一致
• 可训练性:建模单元须要足够的训练数据来进行参数估计
• 可共享性:不一样的建模单元之间共享某些具备共性的训练数据
• 声学单元如何挑选?
• 句子(sentence): 科大讯飞实验室
• 单词(word): 科大-讯飞-实验室
• 单字(syllable): 科-大-讯-飞-实-验-室
• 音素(phone): k-e-d-a-x-un-f-ei-sh-i-y-an-sh-i
• 考虑协同发音的三元音素(tri-phone):ei-sh+i和an-sh+I
• 精细建模和训练数据量之间的矛盾如何解决?参数绑定
• 声学单元对应的模型形式应该是什么?
• 隐Markov模型(HMM),神经网络(NN)
Markov过程和Markov链
• 描述了一个最小记忆系统的随机行为
/**安德雷·安德耶维齐·马尔可夫**/
• HMM的几要素
HMM的两假设
一、一阶Markov假设
二、输出无关假设
HMM的三个问题
• 评估问题
• 给定HMM模型参数以及一串观测序列,如何求得观测序列的似然度
• 解码问题
• 给定HMM模型参数以及一串观测序列,如何搜索出最优的状态序列
• 训练问题
• 给定观测序列,如何获得模型参数
评估问题
运算量太大,须要寻找快速算法—前向算法(Forward Algorithm)
解码问题—Viterbi算法
训练问题—最大似然估计
• EM算法( Expectation-Maximization Algorithm)
• Baum-Welch算法/先后向算法(Forward-Backward )
语言模型
解码搜索
• Viterbi算法
• 时间同步和时间异步
• 搜索空间裁减
• N-best和Word-Graph
• 对于命令词/孤立词识别网络,状况要简化不少
• 对于每条命令词先扩展成HMM序列,而后计算得分
• 选择得分最大的做为识别输出结果
语音识别的难点及其余相关技术介绍 • 说话人的差别 • 不一样说话人:发音器官,口音,说话风格 • 同一说话人:不一样时间,不一样状态 • 噪声影响 • 背景噪声 • 传输信道,麦克风频响 • 鲁棒性技术 • 区分性训练 • 特征补偿和模型补偿