Deep Speaker笔记

结构图及解析 输入:每个miniBatch的数据格式为(N, C, H, W),N为batch_size, C为通道数,此处的数目为3,顺序为(fbank二阶倒数)delta2 (fbank一阶倒数)delta1 fbank, H文章中为时间帧数,该参数是可变的,但是在每个miniBatch中是一样的, W为每帧的特征数目,文章中取值为64。 Deep architecture: ResCNN d
相关文章
相关标签/搜索