self-attention and transformer

时间 2020-12-30

原文原文链接

https://zhuanlan.zhihu.com/p/46990010 1. Attention机制 Attention用于计算"相关程度", 例如在翻译过程中，不同的英文对中文的依赖程度不同，Attention通常可以进行如下描述，表示为将query(Q)和key-value pairs 映射到输出上，其中query、每个key、每个value都是向量，输出是V中所有values的加权，其