Utterance-level Aggregation For Speaker Recognition In The Wild笔记

时间 2020-12-30

原文原文链接

论文链接：https://arxiv.org/abs/1902.10107v1 开源代码：http://www.robots.ox.ac.uk/~vgg/research/speakerID/ 网络结构输入：每帧257维向量，256维的频率量+1维的DC量主干网络：Thin-ResNet，提取frame-level特征 NetVLAD或GhostVLAD层：将frame-level的特征转换成