端到端语音识别（四） raw wavform

时间 2019-12-09

标签语音识别 raw wavform 繁體版

原文原文链接

如今的端到端语音识别的第一个“端”大部分仍是使用人为设定的语音特征，好比FBANK/PLP，更高级的端到端语音识别输入是语音波形，输出是文字。近几年也有一些工做是使用神经网络（好比CNN）来学习传统的特征提取步骤，取得了跟使用传统的语音特征至关的结果，当前这部分工做绝大多数仍是基于传统的HMM框架来作，尚未跟CTC或者encoder-decoder相结合。web CNN Google[1]分析了

>>阅读原文<<