Sequence-to-Sequence Speech Recognition with Time-Depth Separable Convolutions

1.论文摘要 提出了一种time-depth separable 的卷积网络结构,作为ED模型的encoder,在显著减少了参数量的同时增加了计算速度,并且可以维持较大的感受野范围,在noisy LibriSpeech test set 取得了WER 22%的提升。 2.模型结构 encoder TDS 的卷积结构,采用了一个2d卷积,这里输入维度为(batch_size, 1, time_ste
相关文章
相关标签/搜索