端到端语音识别(四) raw wavform

如今的端到端语音识别的第一个“端”大部分仍是使用人为设定的语音特征,好比FBANK/PLP,更高级的端到端语音识别输入是语音波形,输出是文字。 近几年也有一些工做是使用神经网络(好比CNN)来学习传统的特征提取步骤,取得了跟使用传统的语音特征至关的结果,当前这部分工做绝大多数仍是基于传统的HMM框架来作,尚未跟CTC或者encoder-decoder相结合。web CNN Google[1]分析了
相关文章
相关标签/搜索