声纹识别笔记(二)ivector PLDA 以及最新模型

GMM-UBM GMM:均值、方差、权重 UBM:共性特征 i-vector MAP说话人自适应 m:UBM的均值(已知) s:把UBM针对特定说话人调整成GMM,GMM的均值(通过特征得到) T:训练得到 w:特定说话人的ivector 一般只更新均值,不更新方差 DNN-based ivector d-vector 输入之前的30帧和之后的10帧,总共40帧Fbank作为输入,中间通过N层全连
相关文章
相关标签/搜索