语音识别

时间 2019-11-11

标签语音识别繁體版

原文原文链接

产业：算法

Nuance：全球最大的语音识别技术提供商
IBM：具备强大数学底蕴的老牌语音识别研究机构
Microsoft：Vista操做系统中首次加入语音识别功能
Google：凭借互联网方面的优点GOOG-411，音乐搜索网络

学术：框架

Cambridge：HTK工具对学术界研究推进巨大
CMU：SPHINX-李开复
SRI，MIT，RWTH，ATR异步

语音识别实用化方面的两种论调工具

悲观：缺乏杀手级应用，与人类的语音识别水平还有很大差距
乐观：Nuance能如此成功，计算机存储和运算能力的不断提升操作系统

语音识别各类具体应用路由

命令词系统
识别语法网络相对受限，对用户要求较严格
菜单导航，语音拨号，车载导航，数字字母识别等等
• 智能交互系统
对用户要求较为宽松，须要识别和其余领域技术的结合
呼叫路由，POI语音模糊查询，关键词检出
• 大词汇量连续语音识别系统
海量词条，覆盖面广，保证正确率的同时实时性较差
• 结合互联网的语音搜索
实现语音到文本，语音到语音的搜索同步

语音识别基本原理数学

贝叶斯统计建模框架（MAP/最大后验几率决策准则）it

声学特征提取

简单来讲， x是一个帧序列，而每帧就是一个多维向量

声学模型

声学单元应该具备的特性
• 一致性：不一样语音实例中相同的语音单元在声学上一致
• 可训练性：建模单元须要足够的训练数据来进行参数估计
• 可共享性：不一样的建模单元之间共享某些具备共性的训练数据
• 声学单元如何挑选？
• 句子(sentence): 科大讯飞实验室
• 单词(word)：科大-讯飞-实验室
• 单字(syllable)：科-大-讯-飞-实-验-室
• 音素(phone)： k-e-d-a-x-un-f-ei-sh-i-y-an-sh-i
• 考虑协同发音的三元音素(tri-phone)：ei-sh+i和an-sh+I
• 精细建模和训练数据量之间的矛盾如何解决？参数绑定
• 声学单元对应的模型形式应该是什么？
• 隐Markov模型（HMM），神经网络（NN）

Markov过程和Markov链
• 描述了一个最小记忆系统的随机行为

/**安德雷·安德耶维齐·马尔可夫**/

• HMM的几要素

HMM的两假设

一、一阶Markov假设

二、输出无关假设

HMM的三个问题
• 评估问题
• 给定HMM模型参数以及一串观测序列，如何求得观测序列的似然度
• 解码问题
• 给定HMM模型参数以及一串观测序列，如何搜索出最优的状态序列
• 训练问题
• 给定观测序列，如何获得模型参数

评估问题

运算量太大，须要寻找快速算法—前向算法（Forward Algorithm）

解码问题—Viterbi算法

训练问题—最大似然估计
• EM算法（ Expectation-Maximization Algorithm）
• Baum-Welch算法/先后向算法（Forward-Backward ）

语言模型

解码搜索
• Viterbi算法
• 时间同步和时间异步
• 搜索空间裁减
• N-best和Word-Graph

• 对于命令词/孤立词识别网络，状况要简化不少
• 对于每条命令词先扩展成HMM序列，而后计算得分
• 选择得分最大的做为识别输出结果

语音识别的难点及其余相关技术介绍 • 说话人的差别 • 不一样说话人：发音器官，口音，说话风格 • 同一说话人：不一样时间，不一样状态 • 噪声影响 • 背景噪声 • 传输信道，麦克风频响 • 鲁棒性技术 • 区分性训练 • 特征补偿和模型补偿