Tacotron 2

摘要 本文主要讲了一个将文本合成语音的神经网络架构。系统两部分:第一部分是一个循环的seq2seq结构的预测网络,作用是把字符向量映射到梅尔声谱图;第二部分是接一个修改的wavenet把梅尔声谱图合成时域波形。模型平均意见得分MOS是4.53。 介绍: TTS过去一直是把使用单元挑选和拼接式合成方法。把预先录制的语音波形的小片段合在一起。 统计参数的语音合成方法是直接生成语音特征的平滑轨迹,然后交
相关文章
相关标签/搜索