Direct speech-to-speech translation with a sequence-to-sequence model

本篇详细介绍了Google Translate的新技术,从音频直接翻译音频。这个模型叫做S2ST(speech-to-speech translation)。原理是通过一个语音的声谱图映射到另一种语音的声谱图。 Abstract 我们提出了一种基于注意力的序列到序列神经网络,它可以直接将一种语言的语音转换成另一种语言的语音,而不依赖于中间文本表示。该网络经过端到端的训练,学习将语音谱图映射成另一种
相关文章
相关标签/搜索