语音识别系统是深度学习生态中发展最成熟的领域之一。当前这一代的语音识别模型基本都是基于递归神经网络(Recurrent Neural Network)对声学和语言模型进行建模,以及用于知识构建的计算密集的特征提取流水线。虽然基于RNN的技术已经在语音识别任务中获得验证,但训练RNN网络所须要的大量数据和计算能力已经超出了大多数机构的能力范围。最近,Facebook的AI研究中心(FAIR)发表的一个研究论文,提出了一种新的单纯基于卷积神经网络(Convolutional Neural Network)的语音识别技术,并且提供了开源的实现wav2letter++,一个彻底基于卷积模型的高性能的语音识别工具箱。算法
在深度学习领域,在语音识别系统中使用CNN并不新鲜,可是大部分应用都局限于特定的任务,并且一般与RNN结合起来构成完整的系统。可是当前CNN领域的研究代表只使用卷积神经网络也有潜力在语音识别的全部领域达到最高水平,例如机器翻译、存在长程依赖的语言模型的语音合成等。CNN模型与其余技术的最大优点在于它不须要额外并且昂贵的特征提取计算就能够自然地对诸如MFCC之类的标准特征计算进行建模。所以长久以来,深度学习社区一直都期待着在语音识别工做流中彻底使用CNN,由于这要比目前的基于RNN的模型更高效也更富有竞争力。后端
通过不少次实验,FAIR团队决定依赖于一个整合多个不一样CNN层的架构来实现端对端的语音识别流水线,从音频波形处理到语言转录。该架构基于下图所示的散射模型:网络
模型的第一层CNN用来处理原始音频并提取一些关键特征;接下来的卷积声学模型是一个具备门限单元的CNN,可经过训练从音频流中预测字母;卷积语言模型层则根据来自声学模型的输入生成候选转录文本;最后环节的集束搜索(Beam-Search)编码器则完成最终的转录单词序列。架构
FAIR团队将其全卷积语音识别模型与最早进的模型进行了对比,它能够用少的多的训练数据达到基本一致的性能,测试结果使人满意所以FAIR团队决定开源该算法的初始实现。框架
虽然深度学习技术近期的进步促进了自动语音识别(Automatic Speech Recognition)框架和工具箱的增长。然而,全卷机语音识别模型的进步,激励了FAIR团队建立wav2letter++,一个彻底使用C++实现的深度语音识别工具箱。wav2letter++的核心设计基于如下三个关键原则:异步
基于以上原则,wav2letter++实现了以下图所示的很是直白的架构:函数
为了更好地理解wav2letter++的架构,有如下几点值得着重指出:工具
FAIR团队将wav2letter++与其余语音识别进行了对比测试,例如ESPNet、Kaldi和OpenSeq2Seq。实验基于著名的华尔街日报CSR数据集。初始结果代表wav2letter++在训练周期中的任一方面都完胜其余方案。性能
彻底基于CNN的语音识别系统固然是一个有意思的实现途径,它能够优化对计算能力和训练数据的需求。Facebook的wav2letter++实现已经被视为当前最快的语音识别框架之一。咱们将在不久的将来看到该领域愈来愈多的进步。学习
汇智网翻译整理,转载请标明出处:Introducing Wav2letter++