Exploring Self-attention for Image Recognition稿

狭义的self attention   self attention这个说法来自于attention is all you need这篇论文,它也是构成transformer的基础。提出的原因是因为基于rnn做attention的话,是无法做并行化且rnn的结构在长距离的依赖的时候效果并不好。   self attention是针对key,value,query三个变量来计算的。这三个变量都来自于
相关文章
相关标签/搜索