DLNLP学习笔记05(Speech Recognition: RNN-T模型)

1 RNA (Recurrent Neural Aligner),在CTC的输出端将线性分类器换成RNN,使得每一次token的输出都会参考前一刻输出的信息。 问题:RNA和CTC都是一个输入对应一个输出,不能进行一个输入对应多个输出。例如,th为两个token,但输入可能只有一个(th的发音很短,只有一个音,使得输入的语音为一个输入单位)。 2 RNN Transducer(输入端):输入与输出
相关文章
相关标签/搜索