Self-attention计算方法

三个矩阵 首先,Inputs为x1~x4,是一个sequence,每个Input先经过一个Embedding,乘上一个Matrix获得(a1,a4),而后放入self-attention 在self-attention当中,每个Input都分别乘上3个不一样的Matrix产生3个不一样的Vector,分别命名为q,k,v q表明query,to match others,每个Input都乘上一个M
相关文章
相关标签/搜索