稀疏Attention

1. 模型 Self Attention是 O ( n 2 ) O(n^2) O(n2)的,那是由于它要对序列中的任意两个向量都要计算相关度,获得一个 n 2 n^2 n2大小的相关度矩阵:html 左边显示了注意力矩阵,右变显示了关联性,这代表每一个元素都跟序列内全部元素有关联。web 因此,若是要节省显存,加快计算速度,那么一个基本的思路就是减小关联性的计算,也就是认为每一个元素只跟序列内的一
相关文章
相关标签/搜索