稀疏Attention

时间 2021-01-21

原文原文链接

1. 模型 Self Attention是 O ( n 2 ) O(n^2) O(n2)的，那是因为它要对序列中的任意两个向量都要计算相关度，得到一个 n 2 n^2 n2大小的相关度矩阵：左边显示了注意力矩阵，右变显示了关联性，这表明每个元素都跟序列内所有元素有关联。所以，如果要节省显存，加快计算速度，那么一个基本的思路就是减少关联性的计算，也就是认为每个元素只跟序列内的一部分元素相关，这就

>>阅读原文<<

1. 稀疏Attention
2. 稀疏
3. 稀疏数组
4. 稀疏表示
5. 【稀疏矩阵】
6. 稀疏矩阵
7. 稀疏表达
8. 稀疏训练
9. 稀疏3d卷积
10. 稀疏贴图 SparseTexture
更多相关文章...
• W3C词汇和术语表 - 网站建设指南