稀疏Attention

1. 模型 Self Attention是 O ( n 2 ) O(n^2) O(n2)的,那是因为它要对序列中的任意两个向量都要计算相关度,得到一个 n 2 n^2 n2大小的相关度矩阵: 左边显示了注意力矩阵,右变显示了关联性,这表明每个元素都跟序列内所有元素有关联。 所以,如果要节省显存,加快计算速度,那么一个基本的思路就是减少关联性的计算,也就是认为每个元素只跟序列内的一部分元素相关,这就
相关文章
相关标签/搜索