Github | MelGAN 超快音频合成源码开源

点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ,与你不见不散

编辑:Sophia
计算机视觉联盟  报道  | 公众号 CVLianMeng
转载于 :https://github.com/descriptinc/melgan-neurips


推荐文章【点击下面可直接跳转】:

AI博士笔记系列推荐:


以前的工作已经发现,使用GAN生成相干的原始音频波形具有挑战性。在本文中,我们表明通过引入一组体系结构更改和简单的训练技术,可以可靠地训练GAN以生成高质量的相干波形。主观评估指标(平均意见得分,或MOS)显示了所提出的方法对高质量的Mel谱图反演的有效性。为了建立所提出技术的通用性,我们在语音合成,音乐域翻译和无条件音乐合成中显示了模型的定性结果。我们通过消融研究评估模型的各个组成部分,并提出一套指导原则,以设计用于条件序列合成任务的通用鉴别器和发生器。我们的模型是非自回归的,完全卷积的,与竞争模型相比,参数要少得多,并且可以推广到看不见的说话者进行梅尔谱图反演。我们的pytorch实施在GTX 1080Ti GPU上的运行速度比实时快100倍以上,在CPU上的运行速度比实时快2倍以上,而没有任何针对硬件的优化技巧。即将发布带有示例和随附代码的博客文章。


请访问我们的网站获取样本。您可以尝试使用MelGAN根据端到端语音合成管道创建的语音纠正应用程序。


如果您不参加NeurIPS 2019会议,请查看幻灯片以查看我们的海报。

640?wx_fmt=png



END

声明:本文来源于Github

如有侵权,联系删除

联盟学术交流群

扫码添加联盟小编,可与相关学者研究人员共同交流学习:目前开设有人工智能、机器学习、计算机视觉、自动驾驶(含SLAM)、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群,备注:CV联盟  

640?wx_fmt=png

最新热文荐读


640?wx_fmt=png

点个在看支持一下吧640?wx_fmt=png640?wx_fmt=png

相关文章
相关标签/搜索