原文地址(在线体验):https://deepmind.com/blog/wavenet-generative-model-raw-audio/算法
论文下载:https://arxiv.org/pdf/1609.03499.pdf数据库
Google的DeepMind研究实验室公布了其在语音合成领域的最新成果——WaveNet,一种原始音频波 形深度生成模型,可以模仿人类的声音,生成的原始音频质量优于目前Google采用的两种最优文本-语音模型Parameric TTS与Concatenative TTS。网络
WaveNets是一种卷积神经网络,可以模拟任意一种人类声音,生成的语音听起来比现存的最优文本-语音系统更为天然,将模拟生成的语音与人类声音之间的差别下降了50%以上。性能
咱们也将证实,同一种网络可以合成其余音频信号,如音乐,并可以自动生成沁人心脾的钢琴曲。学习
令人们可以与机器自由交谈是人机交互研究领域长久以来的梦想。过 去几年中,深度神经网络的应用(如Google语音搜索)为提升计算机理解天然语音的能力带来了革新。可是,运用计算机生成语音——一般用于指代语音合成 或文本-语音(TTS)系统——在极大程度上还要依托拼接TTS,TTS中包含一个超大型记录单个说话者的简短语音片断的数据库,随后将这些语音片断从新 合成造成完整的话语。在不记录一个新的完整数据库的前提下,这种语音合成方法难以作到修饰声音(例如,转换到一个不一样的说话者,或者改变其语音中强调的重 点或传达的情感)。测试
为了解决语音合成的这一难题,迫切须要运用一种参数TTS,在这种文本-语音系统中,生成数据所须要的全部信息被存储于模型的参数中,语音所传达的内容及 语音特征能够经过模型的输入信息得以控制。然而,目前参数(Parametric)TTS模型生成的语音听起来不如拼接 (Concatenative)TTS模型生成的语音天然,这种现象至少出如今音节类语言中,如英语。现有的参数模型一般是运用信号加工算法 vocoders计算得到的输出信息,以今生成音频信号。动画
WaveNet经过直接为音频信号的原始波形建模,一次为一种音频样本建模,来改变这种范式。同生成听起来更为天然的语音相同,使用原始波形意味着WaveNet可以为任意类型的音频建模,包括音乐。spa
研 究者一般避免为原始音频建模,由于原始音频每每瞬间发生变化:一般状况下,每秒出现16,000种或更多音频样本,在不少时间标尺内出现重要的结构。很明 显,构建一个彻底自动回归模型是一项具备挑战性的任务,在这种模型中,对每一种音频样本的预测均受到以前全部音频样本的影响(用统计学方面的话来说,每一 种预测性分布是创建在全部先前观察的基础之上的)。code
可是,咱们今年公布的PixelRNN和PixelCNN模型显示,作到以每次一个像素,甚至于每次一个颜色通道的方式生成复杂的天然图像是可能的,这将要求对每一个图像作数千次预测。这也启发咱们将原有的二维PixelNets转变为一种一维WaveNet。blog
上方动画所示为一个WaveNet模型的内部结构,一般是一种完整的卷积神经网络,卷积层中有各类各样的扩张因子,容许其接受域深度成倍增加,而且覆盖数千个时间步长。
在 训练时间段内,输入序列是从人类说话者记录得来的真实波形。在训练以后,咱们能够对网络取样,以生成合成话语。在取样的每个步骤中,将从由网络计算得出 的几率分布中抽取数值。所抽取的数值随后被反馈到输入信息中,这样便完成下一步新预测。像这样每作一次预测就取样会增长计算成本,可是咱们已经发现,这样 的取样方法对于生成复杂且听起来真实的音频是相当重要的。
咱们曾 经运用Google的一些TTS数据集来训练WaveNet,以便用于评估WaveNet的性能。下图所示为与Google当前最优TTS系统(参数型 TTS和拼接型TTS)和使用Mean Opinion Scores(MOS:用于评估语音通信系统质量的方法)得到的人类语音相比,在标尺(1-5)上WaveNets的质量。MOS是一种用于主观语音质量 测试的标准测定方法,在人群中进行盲试验。咱们能够看到,WaveNets将最优模型生成语音的质量与人类天然语音(US英语和汉语普通话)之间的差距降 低了50%以上。
就汉语和英语来说,Google当前的TTS系统在世界范围内被认为是最优文本-语音系统,所以,用一种单一模型来改善生成汉语与英语语音质量将会是一项重大成就。
教会WaveNet说有意义的话
为 了实现运用WaveNet将文本转化为语音,咱们得告诉WaveNet文本的内容是什么。咱们经过将文本转换成语言和语音特征(包括音位、音节、单词 等),把转换得来的特征提供给WaveNet,完成这一过程。这意味着网络的预测步骤不只仅基于先前得到的音频样本,并且要基于文本所传达的内容。
若是咱们想要脱离文本序列来训练网络,网络依然可以生成语音,可是得自行编造想要传达的内容。这种条件下生成的音频简直是胡言乱语,有意义的单词被编造的像单词的声音隔断开。
注意,有时WaveNet也会生成一些非语音类型的声音,如呼吸或口腔运动;这反映出一种原始音频模型具备高度灵活性。
一 个单一的WaveNet具有学习许多不一样声音(男性和女性)的特征。为了确保WaveNet可以知道用何种声音匹配给定的任何一段话语,咱们训练网络使之 学习得到说话者的身份特征。有趣的是,咱们发现,与单一训练单个说话者的特征相比,用许多说话者的语言、语音及身份等特征来训练网络使得WaveNet能 够更好地模拟单个说话者,这种训练模式暗含着一种迁移学习形式。
经过改变说话者的身份,咱们能够用WaveNet以不一样的声音表达同一段话语。
一样,咱们能够为该模型提供额外的输入信息,如情感或口音,使得生成的语音变得更为多样化,更有趣。
由 于WaveNet可以用来模拟任何一种音频信号,咱们认为,尝试用WaveNet生成音乐也将很好玩。与TTS实验不一样,咱们的网络不是基于一个输入序 列,告诉它怎么演奏音乐(如一篇曲谱);相反,咱们只是简单地容许WaveNet任意生成一种音乐。当咱们采用一个古典钢琴曲数据集来训练WaveNet 时,它将生成一曲美妙乐章。
WaveNets将为TTS带来无数可能,大致上来说,有生成音乐和模拟音频两类。事实上,直接运用深度神经网络一个时间步长一个时间步长地生成音乐,这种方法适用于全部16kHZ音频,这将是很是使人惊喜的。咱们很是期待WaveNets将来将会带给咱们的惊喜。