谷歌开源数据集模型，可从录音混音中分离出不一样声音

时间 2020-04-13

原文原文链接

技术编辑：徐九丨发自北京
SegmentFault 思否报道丨公众号：SegmentFaultgit

近期，随着市场对音视频领域的需求和技术发展，包括阿里巴巴和微软在内的科技巨头都投入了大量时间和资源试图解决声音分离问题。github

近日，谷歌发布了一个新的数据集 —— 自由通用声音分离数据集，简称 FUSS，旨在支持开发可以从录音混音中分离出不一样声音的 AI 模型。网络

根据报告显示，该模型的使用场景很是丰富，若是将其商业化，FUSS 可能会被用于企业用于从电话会议中提取语音。框架

这是继谷歌和瑞士 Idiap 研究所的一项研究以后，该研究描述了两种机器学习模型 -- 扬声器识别网络和频谱掩码网络 -- 共同 "显著下降了多扬声器信号上的语音识别单词错误率（WER）。dom

正如 Google Research 的科学家 John Hershey、Scott Wisdom 和 Hakan Erdogan 在一篇文章中解释的那样，大部分的声音分离模型都假设混合物中的声音数量是静态的，它们要么将少数声音类型的混合物（如语音与非语音）或同一声音类型的不一样实例（如第一个扬声器与第二个扬声器）分离出来。FUSS 数据集则将焦点转移到更广泛的问题上，即将任意数量的声音从彼此之间分离出来。机器学习

为此，FUSS 数据集包括了一组不一样的声音，一个逼真的房间模拟器，以及将这些元素混合在一块儿的代码，以实现多源、多类音频的真实性。学习

谷歌的研究人员从 FreeSound.org 中提取音频片断，通过过滤，排除了那些在混合在一块儿时没法被人类分离的声音，他们编译了包括 12377 个混合声音长达 23 个小时的音频，从中产生了 20000 个混合声音，用于训练 AI 模型，另外还有 1000 个混合声音用于验证，1000 个混合声音用于评估。google

研究人员表示，他们使用谷歌的 TensorFlow 机器学习框架开发了本身的房间模拟器，该框架能够生成一个具备「频率依赖性」反射属性的箱形房间的脉冲响应，给定一个声源和麦克风位置。FUSS 附带了每一个音频样本所使用的预计算房间脉冲响应，以及混音代码。此外，FUSS 还提供了一个预训练的、基于掩码的分离模型，能够高精度地重构多声源混音。spa

谷歌团队计划开放房间模拟器的代码，并计划扩展该模拟器，以解决计算成本更高的声学特性，以及具备不一样反射特性的材料和新颖的房间形状。视频

"咱们但愿「FUSS 数据集」可以下降新研究的门槛，特别是可以快速迭代和应用来自其余机器学习领域的新技术来应对声音分离的挑战。"

GitHub 地址：
https://github.com/google-res...