Attention各个维度计算方法

这里是对self-Attention具体的矩阵操作,包括怎么separate head,如何进行的QK乘法等细节做了记录,以便自己以后查看。 dot-product Attention 其中的 X n , d m o d e l X^{n,d_{model}} Xn,dmodel​一般是seq序列,n为序列的长度, d m o d e l d_{model} dmodel​为序列的emedding
相关文章
相关标签/搜索