目前自然语音合成(TTS)进度一点见解

目前实验模型wavenet,parallel wavenet, tacotron, deep voice 3, clarinet 1. 需要preemphasis来产生更好的音频 来自社区国人tacotron2的commit 2. 转换到mu-law域可以stabilize训练过程,加速converge, 但是好像对最优解生成的音频质量没什么影响,所以现在训练还是raw 3. 最终converge
相关文章
相关标签/搜索