interspeech2020论文阅读

interspeech2020论文阅读 Streaming ASR 1.Scout Network (1)SN 文中用SN检测word boundary(严格来说是label boundary),模型采用N个self-attention层(最前面有CNN层做下采样),因为第i帧特征对应的输出仅依赖于前面的输出(如何实现的,通过mask??),所以SN没有latency。SN输出层用一个linear
相关文章
相关标签/搜索