self-attention and transformer

https://zhuanlan.zhihu.com/p/46990010 1. Attention机制 Attention用于计算"相关程度", 例如在翻译过程中,不同的英文对中文的依赖程度不同,Attention通常可以进行如下描述,表示为将query(Q)和key-value pairs  映射到输出上,其中query、每个key、每个value都是向量,输出是V中所有values的加权,其
相关文章
相关标签/搜索