语音合成领域的首个完全端到端模型,百度提出并行音频波形生成模型ClariNet...

语音合成(Text-to-Speech,TTS)是将自然语言文本转换成语音音频输出的技术,在 AI 时代的人机交互中扮演至关重要的角色。百度硅谷人工智能实验室最近提出了一种全新的基于 WaveNet 的并行音频波形(raw audio waveform)生成模型ClariNet,合成速度提升了数千倍,可以达到实时的十倍以上。此外,这也是语音合成领域第一个真正的端到端模型:单个神经网络,直接从文本到
相关文章
相关标签/搜索