Exploring Self-attention for Image Recognition稿

时间 2020-12-30

原文原文链接

狭义的self attention self attention这个说法来自于attention is all you need这篇论文，它也是构成transformer的基础。提出的原因是因为基于rnn做attention的话，是无法做并行化且rnn的结构在长距离的依赖的时候效果并不好。 self attention是针对key，value，query三个变量来计算的。这三个变量都来自于