attention的是是非非

基本形式: 图解: 其中Q为query,K为key,V为value。attention就是看看Q和K的相关性,Q代表的是原图中的原始信息的语义映射,一般不改变其维度,K代表想将原图中的信息映射到多少维的空间中,(保持、增大还是减少)。 在self-attention中,计算量和显存占用比较大的主要是生成attention map时的 步骤。因此可以从这个方向减少计算量。 更改示例 ISSA: In
相关文章
相关标签/搜索