Uncovering Latent Style Factors for Expressive Speech Synthesis

最近拜读王宇轩的旧作,希望能顺着作者的思路窥得一点语音合成研究的方向。 这篇文章应该是宇轩大佬刚进谷歌发表的,2017年。应该是tacotron发表之后,GST的想法雏形,因此文章只放在axriv上边。 abstract 本文旨在控制语音合成的韵律,在tacotron的基础上加"style token",从而不需要注释的数据,可以直接通过data-driven的方式,学到各种韵律的变化。变长的句子
相关文章
相关标签/搜索