NeurIPS 2019 | MelGAN:基于生成对抗网络快速生成音频

作者丨武广 学校丨合肥工业大学硕士生 研究方向丨图像生成 谈到数据的生成,很多人都会想到利用生成对抗网络(GAN)去实现,这对于图像和视频这种较易于编码表示的数据是合适的。然而在实现音频的生成时,却是困难重重,首先音频具有较高的时间分辨率(通常至少为每秒 16,000 个样本),并且在不同时间尺度上存在具有短期和长期依赖性的结构。 就目前基于 GAN 做音频生成的文章中,基本上都是生成出音频对应的
相关文章
相关标签/搜索