百度推出完全端到端的并行音频波形生成模型，比WaveNet快千倍 | 论文

时间 2021-01-11

原文原文链接

稿件来源：百度硅谷研究院量子位授权转载 | 公众号 QbitAI 语音合成（Text-to-Speech，TTS）是将自然语言文本转换成语音音频输出的技术，在AI时代的人机交互中扮演至关重要的角色。百度硅谷人工智能实验室的研究员最近提出了一种全新的基于WaveNet的并行音频波形（raw audio waveform）生成模型ClariNet，合成速度比起原始的WaveNet提升了数千倍，可以