【论文速读】Sharing Attention Weights for Fast Transformer

Sharing Attention Weights for Fast Transformer 2019, IJCAI. 这篇论文的主要思想是通过共享注意力权重来加速Transformer。(关于Transformer,网上已有很多优秀的解读了,不了解的可以看看这篇。) 作者在10个公开数据集上进行了实验,对比其他baselines,至少能够提速1.3倍。 Introduction 由于Transf
相关文章
相关标签/搜索