语音识别开放平台调研以及主要技术

时间 2019-12-19

标签语音识别开放平台调研以及主要技术繁體版

原文原文链接

　　语音识别是以语音为研究对象，经过语音信号处理和模式识别让机器自动识别和理解人类口述的语言。语音识别技术就是让机器经过识别和理解过程把语音信号转变为相应的文本或命令的高技术。语音识别是一门涉及面很广的交叉学科，它与声学、语音学、语言学、信息理论、模式识别理论以及神经生物学等学科都有很是密切的关系。语音识别技术正逐步成为计算机信息处理技术中的关键技术，语音技术的应用已经成为一个具备竞争性的新兴高技术产业。　

　　目前的语音开放平台有：百度DuerOS开放平台，阿里AliGenie语音开放平台，腾讯云小微语音开放平台，科大讯飞，思必驰的DUI，云知声等等，目前咱们公司采用的是科大讯飞和阿里的语音开发平台。

　　AIUI 是科大讯飞2015年推出的一套以语音为核心的人机交互解决方案，意在令人机交互中的计算机可以快速具有能听会说，能理解会思考的能力。搭载了 AIUI 的智能硬件能够轻松实现查询天气、播放音视频资源、设置闹钟以及控制智能家居等能力。AIUI 的语义理解不只提供了基本的问答，还提供了一套开发任务型对话的解决方案，开发者能够经过在平台编写自定义技能，实现自身业务的语义理解。实现诸如商场导购、自助点菜、智能客服等功能。性能

　　相信你们在生活中也使用过这里所说的 AIUI，就是你手机上的语音助手，你能够跟他聊天，能够用语音对话的方式，去查询今天的天气，去导航，去听新闻等等。而这一切实现的方式都是你用语言去直接询问他。不用手动去查询，这在生活上大大的提升了咱们的便利。视频

　　科大讯飞是一个已经成熟的产品了，不少技能是能够在后台自定义的，相比阿里会好不少。可是因为咱们应用的调用次数已经到达了上线，致使要收费，因此咱们选择了阿里的开放平台。真的有好多好多的坑。对象

　　接下来咱们开看下语音识别的主要几个技术 ASR/NLU/VAD。blog

　　ASR 是自动语音识别技术（Automatic Speech Recognition）是一种将人的语音转换为文本的技术。语音识别是一个多学科交叉的领域，它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。因为语音信号的多样性和复杂性，语音识别系统只能在必定的限制条件下得到满意的性能，或者说只能应用于某些特定的场合。语音识别系统的性能大体取决于如下4类因素：1. 识别词汇表的大小和语音的复杂性；2. 语音信号的质量；3. 单个说话人仍是多说话人；4. 硬件。资源

　　NLU 是天然语言理解 (Natural Language Understanding)，简称NLU。在天然语言理解以前还包含一个天然语言处理这个步骤，天然语言处理，是（Natural Language Processing)，简称 NLP。开发

　　归纳来讲，NLP，除了NLU（图中红框部分），还包含理解以前的处理阶段、和理解以后的应用阶段。也就是说，NLU是NLP的子集——他们不是并集、更不是等价的概念。这里，是不少AI从业人员都容易混淆的，你们能够先记住这个概念关系：NLU是NLP的子集。产品

　　VAD，也就是语音端点检测技术，是Voice Activity Detection的缩写。这个技术的主要任务是从带有噪声的语音中准确的定位出语音的开始和结束点，由于语音中含有很长的静音，也就是把静音和实际语音分离开来，由于是语音数据的原始处理，因此VAD是语音信号处理过程的关键技术之一。它的好坏，直接影响成败，因为技术自己的特殊性，因此在涉及语音信号处理的领域，端点检测技术的应用很是普遍。语音识别系统在识别或者声学模型训练阶段所遇到的第一个技术就是端点检测，把静音和噪声做为干扰信号从原始数据中去除，而且端点检测对于语音识别系统的性能相当重要。一个语音识别的产品这三个是技术是很是重要的。it