点上方蓝字计算机视觉联盟获取更多干货
在右上方 ··· 设为星标 ★,与你不见不散
AI博士笔记系列推荐:
以前的工作已经发现,使用GAN生成相干的原始音频波形具有挑战性。在本文中,我们表明通过引入一组体系结构更改和简单的训练技术,可以可靠地训练GAN以生成高质量的相干波形。主观评估指标(平均意见得分,或MOS)显示了所提出的方法对高质量的Mel谱图反演的有效性。为了建立所提出技术的通用性,我们在语音合成,音乐域翻译和无条件音乐合成中显示了模型的定性结果。我们通过消融研究评估模型的各个组成部分,并提出一套指导原则,以设计用于条件序列合成任务的通用鉴别器和发生器。我们的模型是非自回归的,完全卷积的,与竞争模型相比,参数要少得多,并且可以推广到看不见的说话者进行梅尔谱图反演。我们的pytorch实施在GTX 1080Ti GPU上的运行速度比实时快100倍以上,在CPU上的运行速度比实时快2倍以上,而没有任何针对硬件的优化技巧。即将发布带有示例和随附代码的博客文章。
请访问我们的网站获取样本。您可以尝试使用MelGAN根据端到端语音合成管道创建的语音纠正应用程序。
如果您不参加NeurIPS 2019会议,请查看幻灯片以查看我们的海报。
END
声明:本文来源于Github
如有侵权,联系删除
扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟
最新热文荐读
点个在看支持一下吧