京东智联云4篇论文入选国际语音顶级大会Interspeech 2020

时间 2020-11-02

标签 web 算法 segmentfault 网络 app 框架机器学习函数性能学习栏目程序员峰会繁體版

原文原文链接

近日，受到新冠疫情的影响，原计划于2020年10月25日至10月29日期间，在中国上海+线上同步举行的国际语音顶级会议Interspeech 2020最终改成线上举行。京东人工智能研究院有4篇论文脱颖而出，成功入选本次大会。分别在声音事件定位与检测、语音去混响、语音验证系统、神经网络声码器等领域取得突破。同时，京东智联云做为本届会议的钻石级赞助商，致力于增强工业界和学术界的技术协做，支持会议顺利进行。web

Interspeech 2020是由国际语音通讯协会ISCA组织的语音研究领域的顶级会议之一，是全球最大的综合性语音信号处理领域的科技盛会。该会议每一年举办一次，今年大会是第21届INTERSPEECH会议，也是第二次在中国举办。本届会议以“Cognitive Intelligence for Speech Processing”为主题，内容涵盖信号处理、语音识别、天然语言处理、神经机器翻译等领域。算法

京东人工智能研究院专一于持续性的算法创新，80%的研究都由京东实际的业务场景需求为驱动，聚焦NLP语音、计算机视觉、机器学习（包括深度学习和强化学习）等领域。在Interspeech 2020中，京东人工智能研究院提交的多篇论文通过重重审核，最终被大会收录。本文将向你们分享京东人工智能研究院入选的4篇论文主要思路与创新点。segmentfault

01，基于多方位波束造成和多任务学习的声音事件定位与检测网络

（Sound Event Localization and Detection Based on Multiple DOA Beamforming and Multi-task Learning）app

声音事件检测和定位在智能家居、智能安防等领域具备重要的应用价值，而环境中的噪声、混响、多声源混叠等给该任务带来了巨大挑战。声音事件检测和定位一般基于麦克风阵列，更普遍而言，如何有效利用多通道麦克风信号，提升基于深度神经网络的语音相关任务的性能，也是仍需解决的问题。框架

本文提出了一种基于多方位波束造成和多任务学习的声音事件检测和定位方法，主要特色为利用传统声学信号处理为神经网络提供更为丰富的信息。具体而言，经过指向不一样预约方位的固定波束造成，可提取各个方位的声源信号，并抑制该方位以外的干扰信号。该方法无需预先进行声源定位或掩蔽估计，便可得到差别化多样化的空间表示。机器学习

本文推导了采用训练数据基于互功率谱的导向矢量计算方法，以消除对麦克风阵列几何信息的依赖。进一步，本文分别设计了声源定位网络和基于多任务学习的声音事件检测网络。咱们在DCASE2019声音事件检测和定位数据集上进行了评估，结果代表所提算法取得了最好的综合性能。函数

02，SkipConvNet：基于功率谱最优平滑及跨层卷积神经网络的语音去混响性能

（Skip Convolutional Neural Network for Speech Dereverberation using Optimally Smoothed Spectral Mapping）学习

本文所述研究为京东人工智能研究院和德克萨斯大学达拉斯分校的合做研究项目。全卷积神经网络的有效性已经在众多语音应用中获得展示。该网络的一个重要变体是“ UNet”，即包含跨层链接的encoder-decoder的卷积网络。

本研究提出了基于“ SkipConvNet”的降混响算法，该算法用多个卷积网络替换UNet的每一个跨层链接，为decoder提供更为直观的信息表示，以提升网络性能。本文还提出了基于最优平滑功率谱估计的预处理步骤，这有助于进一步提升网络的学习能力。采用REVERB Challenge语料库的实验结果代表，所提方法在客观质量评估上显著优于基线系统，并明显改善混响条件下的语音识别及说话人识别性能。

03，FFSVC 2020 Challenge JD　ＡＩ声纹验证系统

（The JD AI Speaker Verification System for the FFSVC 2020 Challenge）

远场声纹识别系统中，声学环境的复杂性以及多变性对声纹识别及验证的性能带来巨大挑战。本文基于FFSVC2020远场声纹验证竞赛，主要探索了数据扩充、模型结构以及打分策略对远场声纹验证性能的影响。

FFSVC2020比赛提供了约1100小时共计120位说话人的数据，如何利用大量的开源近场数据进行数据扩充是本文探讨的主要方向之一。咱们采用的策略包括：

1）采用beamforming, voice channel switching和dereverberation等技术将远场数据变换到近场；

2）经过计算FFSVC2020远场数据和近场数据之间的房间冲激相应函数（RIR，room impulse response）以及采用模拟仿真生成大量的RIR，在近场数据上增长卷积噪声；

3）利用录制的大量的环境噪声在近场数据上增长加性噪声；

4）将data augmentation技术用于训练集或者用于测试集增长数据的多样性。实验结果代表，data augmentation可以大幅提高系统的性能。

此外，本文还探索了TDNN，TDNNF，ResNet, Transformer等模型结构在声纹验证里的应用。结合得分规整技术和两级打分策略，相比于官方基线系统，minDCF 绝对下降0.2393，EER绝对下降3.16%。

04，Efficient WaveGlow：一种改进的可提升速度的WaveGlow声码器

（WaveGlow: An Improved WaveGlow Vocoder with Enhanced Speed）

在高质量的语音合成系统中，像WaveGlow这种神经网络声码器已经成为了必不可少的一部分。Efficient WaveGlow是咱们提出的一个基于归一化流的高效的神经网络声码器。

和WaveGlow同样，Efficient WaveGlow采用归一化流做为网络框架，每个流操做由一个affine coupling layer和可逆的1x1卷积层构成。为了减小模型的参数量，提高推理速度，Efficient WaveGlow在如下3个方面对WaveGlow进行了改进：

1）把基于WaveNet网络结构的仿射变换网络改成了基于FFTNet网络结构的放射变换网络，FFTNet网络结构比WaveNet更简单高效，拥有更少的参数量；

2）采用分组卷积进一步减小模型的参数量，提高模型效率；

3）咱们尝试了在仿射变换网络中的每个卷积层中共享local condition，用以减小冗余特征，减小模型的参数量。

Efficient WaveGlow与WaveGlow相比，合成一样长度的音频的计算量下降了12倍以上。一样，模型的参数量也下降了12倍以上。实验结果代表，Efficient WaveGlow并无明显的声音质量降低，可是却能实现CPU上推理速度6倍的提高以及P40上推理速度5倍的提高。

关于京东AI研究院
京东AI研究院专一于持续性的算法创新，多数研究将由京东实际的业务场景需求为驱动。研究院的聚焦领域为：计算机视觉、天然语言理解、对话、语音、语义、机器学习等实验室，已逐步在北京、南京、成都、硅谷等全球各地设立办公室。