Cross-lingual TTS via Domain Adaptation and Perceptual Similarity Regression 论文梳理

0. Abstract 我们提出了一种改进跨语言文本到语音合成性能的方法。先前的作品能够通过扬声器编码器对扬声器空间中的扬声器个性进行建模,但是在合成跨语言语音时会降低性能。这是因为由所有发言人嵌入形成的发言人空间完全取决于语言。为了构建独立于语言的说话者空间,我们将跨语言语音合成作为领域自适应问题,并提出一种训练方法,使说话者编码器将不同语言的说话者嵌入到同一空间。此外,为了提高说话者的个性并构
相关文章
相关标签/搜索