百度推出完全端到端的并行音频波形生成模型,比WaveNet快千倍 | 论文

稿件来源:百度硅谷研究院 量子位授权转载 | 公众号 QbitAI 语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在AI时代的人机交互中扮演至关重要的角色。 百度硅谷人工智能实验室的研究员最近提出了一种全新的基于WaveNet的并行音频波形(raw audio waveform)生成模型ClariNet,合成速度比起原始的WaveNet提升了数千倍,可以
相关文章
相关标签/搜索