Almost Unsupervised Text to Speech and Automatic Speech Recognition

Abstract: 无监督方法,只需要利用几百对文本—语音对和额外的无标签的数据,提供给TTS和ASR components: 1.a denosising auto-encoder 2. 双机制训练;TTS是把text y转成语音x,ASR把利用x和y进行训练,反之亦然 3. 双向序列建模,主要解决长语音序列和文本序列在训练过程中出现的错误传播问题 4.一个unified model 包含 TT
相关文章
相关标签/搜索