目前自然语音合成（TTS）进度一点见解

时间 2020-12-26

原文原文链接

目前实验模型wavenet，parallel wavenet， tacotron， deep voice 3， clarinet 1. 需要preemphasis来产生更好的音频来自社区国人tacotron2的commit 2. 转换到mu-law域可以stabilize训练过程，加速converge, 但是好像对最优解生成的音频质量没什么影响，所以现在训练还是raw 3. 最终converge