语音识别任务大进展:实现5.1%的低错误率

去年,微软的演讲和对话研究小组宣布了一项里程碑,即在交换机上的会话语音识别任务中达到人类的平等地位,这意味着咱们已经创造了至关于专业的人类转录员的在对话中识别单词的技术。web

在咱们的转录系统达到了咱们对人类测量的5.9%的错误率后,其余研究人员进行了他们本身的研究,采用了更多的多转录过程,产生了5.1%错误率。这与先前的研究相一致,研究代表,人们在花费更多的精力和努力时,对所使用的准确词语达成了更高的一致性。微信

8月20日,微软语音和对话研究团队负责人黄学东宣布微软语音识别系统继去年以后再次取得重大突破,错误率由5.9%进一步下降到5.1%,可与专业速记员比肩。这次突破大幅刷新原先记录,并在语音识别行业树立新的里程碑。网络

这两次研究转录的都是Switchboard语料库中的录音,Switchboard是一个电话通话录音语料库,自上世纪90年代以来一直被研究人员做为测试语音识别系统的样本。语音识别测试任务包括对陌生人对话交流中的不一样话题,好比体育和政治方面的讨论,进行从语音到文字的转录。架构

研究人员经过改进微软语音识别系统中基于神经网络的听觉和语言模型,在去年基础上下降了大约12%的出错率,同时引入了CNN-BLSTM(convolutional neural network combined with bidirectional long-short-term memory,带有双向LSTM的卷积神经网络)模型,用于提高语音建模的效果。而且,系统中之前就在使用的从多个语音模型进行综合预测的方法,现在在帧/句音级别和单词级别下均可以发挥效果。工具

除此之外,研究人员还对整个对话过程进行历史记录分析,预测接下来可能会发生的事情,进一步增强识别器的语言模型,使其可以有效适应对话话题和语境的快速转变。测试

微软认知工具包Microsoft Cognitive Toolkit 2.1(CNTK)在研究过程当中表现突出,研究人员充分利用CNTK探索模型架构和优化模型的超参数。此外,微软对云计算基础设施(特别是AzureGPU)的投资,也帮助提高了训练模型、测试新想法的效果和速度。优化

实现识别准确率上的“人类对等”是语音识别领域过去25年来一直奋力追求的研究目标,微软始终坚持深耕语音识别,并力争将新技术最快、最好地运用到Cortana、Presentation Translator、Microsoft Cognitive Services等微软产品和服务中,让用户可以亲身体验新技术的魅力。微软的研究团队很是高兴能够看到天天有数百万的用户在使用这些产品,将来将更加努力,创造出更具突破性的工做成果。云计算

语音识别技术的进步创造了语音翻译等服务,能够实时地为多语种受众翻译演示文稿。人工智能

工业和学术界的许多研究小组在语音识别方面作得很好,咱们本身的工做从社区的总体进步中受益不浅。而实现5.1%错误率在语音识别任务是一个重大成就,可是解决科研界仍有许多挑战,好比达到人类水平的识别与遥远的麦克风在嘈杂的环境中,方言识别,有限训练数据条件下的语音识别或较少人使用的语言的语音识别。此外,咱们还有不少工做要作。spa

 

本文译自Microsoft researchers achieve new conversational speech recognition milestone

原文连接:https://www.microsoft.com/en-us/research/blog/microsoft-researchers-achieve-new-conversational-speech-recognition-milestone/

本文分享自微信公众号 - AI MOOC人工智能平台(AIMOOC_XLAB)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。

相关文章
相关标签/搜索