attention表示成k、q、v的方式及self-attention

attention表示成k、q、v的方式: 传统的attention(sequence2sequence问题): 上下文context表示成如下的方式(h的加权平均): 那么权重alpha(attention weight)可表示成Q和K的乘积,小h即V(下图中很清楚的看出,Q是大H,K和V是小h): 上述可以做个变种,就是K和V不相等,但需要一一对应,例如: V=h+x_embedding Q
相关文章
相关标签/搜索