DLNLP学习笔记05（Speech Recognition: RNN-T模型）

时间 2021-01-17

标签 NLP 繁體版

原文原文链接

1 RNA (Recurrent Neural Aligner)，在CTC的输出端将线性分类器换成RNN，使得每一次token的输出都会参考前一刻输出的信息。问题：RNA和CTC都是一个输入对应一个输出，不能进行一个输入对应多个输出。例如，th为两个token，但输入可能只有一个（th的发音很短，只有一个音，使得输入的语音为一个输入单位）。 2 RNN Transducer（输入端）：输入与输出

>>阅读原文<<