Utterance-level Aggregation For Speaker Recognition In The Wild笔记

论文链接:https://arxiv.org/abs/1902.10107v1 开源代码:http://www.robots.ox.ac.uk/~vgg/research/speakerID/ 网络结构 输入:每帧257维向量,256维的频率量+1维的DC量 主干网络:Thin-ResNet,提取frame-level特征 NetVLAD或GhostVLAD层:将frame-level的特征转换成
相关文章
相关标签/搜索