FastSpeech: Fast, Robust and Controllable Text to Speech

Abstract: 提出一种基于transformer的新型前馈网络FastSpeech,和自回归的Transformer TTS相比 将梅尔谱的生成速度提高了近270倍。端到端的语音合成速度提高了38倍,大gpu上语音合成速度达到实时语音速度的30倍 Introduction: 基于神经网络的tts和传统语音合成的拼接法和参数法相比,end to end的TTS通常具有更好的声音自然度。 但在基
相关文章
相关标签/搜索