Uncovering Latent Style Factors for Expressive Speech Synthesis

时间 2021-07-12

原文原文链接

最近拜读王宇轩的旧作，希望能顺着作者的思路窥得一点语音合成研究的方向。这篇文章应该是宇轩大佬刚进谷歌发表的，2017年。应该是tacotron发表之后，GST的想法雏形，因此文章只放在axriv上边。 abstract 本文旨在控制语音合成的韵律，在tacotron的基础上加"style token"，从而不需要注释的数据，可以直接通过data-driven的方式，学到各种韵律的变化。变长的句子