DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS知识点说明

DURIAN: DURATION INFORMED ATTENTION NETWORK FOR MULTIMODAL SYNTHESIS

文章于2019年9月发表

在这里插入图片描述

将DurIAN与Tacotron1对比,主要是放弃使用attention结构,使用一个单独的模型来预测alignment,从而来避免合成中出现的跳词重复等问题,DurIAN相当于一个去除Attention的Tacotron1,主要差异如下:

  1. Encoder: 输入phoneme, phoneme embeddings;
  2. Skip State: DurIAN为了编码不同级别的韵律结构,在输入音素之间插入代表不同级别韵律边界的特殊符号, 由于编码器和解码器状态之间的对齐取决于持续时间模型,并且由于韵律边界在物理上对应于时间点而不是持续时间,因此Skip State将与韵律边界关联的隐藏状态从CBHG模型的输出中排除,但相关信息已经被编码进去(复现代码中待实现);

在这里插入图片描述

  1. Alignment: 为了避免某些单词在生成的语音中会被跳过或重复等问题,将attention mechanism替换为alignment model,达到帧水平的强制对齐。DurIAN使用Forced-alignment工具作为alignment的来源;(这部分可以同步参考fastspeech)
  2. Duration Predictor: 三层包含512个单元的双向LSTM层;
  3. Style Code: 使用不同情感标签的数据集,DurIAN进行了监督的情感学习,可以细粒度调整合成语音的情感(待合成该品质声音后的研究方向)。

在这里插入图片描述

  1. Vocoder: Multi-band WaveRNN。

细节:mel_loss和mel_postnet_loss都采用l1_loss;Duration predictor模型采用l2_loss,模型仅在inference时使用,training阶段使用真实duration target,且DurIAN模型和Duration predictor模型分开单独训练。