DCASE(Challenge on Detection and Classification of Acoustic Scenes and Events),即声学场景和事件检测及分类竞赛,是世界范围内权威的声学比赛,从2013年至今已经成功举办了六届,随着愈来愈多的顶级高校组织、权威科研机构等参与到比赛中来,DCASE在必定程度上推进了计算机听觉的发展的快速发展。git
今年举办的DCASE2020截至目前已经到了中后期,这届大赛吸引了包括亚马逊、英特尔、高通骁龙、腾讯等国际公司和清华大学、新加坡南洋理工大学、香港中文大学等顶级高校的参与。一共分为以下六个任务,本文主要针对Task 1声学场景分类进行介绍,以及整理了各个参赛队伍的技术方案,供相关研究方向的研究人员交流讨论。github
- Task 1声学场景分类
- Task 2用于机器状态监视的异常声音的无监督检测
- Task 3声音事件的定位和检测
- Task 4家庭环境中的声音事件监测和分离
- Task 5时空上下文的城市声音标记
- Task 6自动音频字幕
一:Task 1任务介绍
Task1包含两个子任务:Task 1a和Task 1bflex
1.1:Task 1a任务介绍spa
a)任务要求:识别不一样终端设备,好比手机、ipad或其它录音设备采集的音频,识别成不一样的类别,具体以下图所示。设计


b)声学场景包括:3d
- Airport - airport
- Indoor shopping mall - shopping_mall
- Metro station - metro_station
- Pedestrian street - street_pedestrian
- Public square - public_square
- Street with medium level of traffic - street_traffic
- Travelling by a tram - tram
- Travelling by a bus - bus
- Travelling by an underground metro - metro
- Urban park - park
c)开发数据集:以下表所示,其中包含10个城市和9个设备的数据:3个真实设备(A、B、C)和6个模拟设备(S1-S6)。数据集提供了一个训练/验证分割,其中每一个设备70%的数据用于训练,30%用于验证,下载地址。excel


d)评估数据集:包含12个城市、10个声学场景、11个设备的数据。有五个新的设备(在开发集中不可用),真实设备D和模拟设备S7-S11,下载地址。blog
1.2:Task 1b任务介绍事件
a)要求:将音频分为三大类:室内、室外和交通。该任务针对模型大小方面的分类问题的低复杂性解决方案,要求模型大小不超过500KB,并使用单个设备(设备A)录制的音频。 具体以下图所示。ip


b)开发数据集:包含10个城市的数据。开发集的音频总量为40小时,下载地址。
c)评估数据集:包含12个城市的数据(2个城市在开发数据集中看不到),评估数据包含30小时的音频,下载地址。
1.3:其余条件
a)以上两个任务Task 1a和Task 1b都可以条件下使用以下外部的模型以及数据集。


b)官方开源了两个任务的Baseline方案。
https://github.com/toni-heittola/dcase2020_task1_baseline github.com二:Task1a和Task1b的优秀方案汇总
汇总各个优秀的方案设计状况(每一个参赛队伍取最优方案),包括但不限于:分类器设计、数据加强方案、特征提取方案、子模型数量、外部数据引用状况、嵌入层设计,模型压缩方案等等。
2.1:Task1a方案汇总




2.2:Task1b方案汇总




方案汇总若须要excel版本,请私信;以上内容为我的整理,欢迎交流。