Tacotron2语音合成

Tacotron2是由Google Brain提出来的一个语音合成框架.

模型架构:
在这里插入图片描述
机器环境:

在Ubuntu16.04 Ubuntu16.04 GPU GeForce RTX 2080(单个GPU)
TensorFlow1.15 cuda10.0 cudnn7.6.3下完成.

github上有一个Tacotron-2的Tensorflow实现,地址
https://github.com/Rayhane-mamah/Tacotron-2
用上面的开源代码跑Ljspeech数据集,tacotron_train_steps跑了 100000,wavenet_train_steps只跑了130000(默认是500000),声码器用的WaveNet.

由于机器内存不够跑了几次出现OOM,后来把hparams.py文件里面的参数max_mel_frames由900改为500,tacotron_batch_size由32改成16,outputs_per_step由1改成3,由于tensorflow版本原因,需要将modules.py文件里面的
self._track_checkpointable(layer,name=‘layer’)改成
self._track_trackable(layer,name=‘layer’),否则会报错.
跑了好几天才跑完.

执行命令 python synthesize.py --model ='Tacotron-2’合成语音.