Direct speech-to-speech translation with a sequence-to-sequence model

时间 2020-12-29

原文原文链接

本篇详细介绍了Google Translate的新技术，从音频直接翻译音频。这个模型叫做S2ST(speech-to-speech translation)。原理是通过一个语音的声谱图映射到另一种语音的声谱图。 Abstract 我们提出了一种基于注意力的序列到序列神经网络，它可以直接将一种语言的语音转换成另一种语言的语音，而不依赖于中间文本表示。该网络经过端到端的训练，学习将语音谱图映射成另一种