Deep Speaker笔记

时间 2021-01-04

原文原文链接

结构图及解析输入：每个miniBatch的数据格式为（N, C, H, W），N为batch_size， C为通道数，此处的数目为3，顺序为(fbank二阶倒数)delta2 (fbank一阶倒数)delta1 fbank， H文章中为时间帧数，该参数是可变的，但是在每个miniBatch中是一样的， W为每帧的特征数目，文章中取值为64。 Deep architecture: ResCNN d