Multi-head整理—为什么 Transformer 需要进行 Multi-head Attention?

一.Attention is all you need论文中讲模型分为多个头,形成多个子空间,每个头关注不同方面的信息。 如果Multi-Head作用是关注句子的不同方面,那么不同的head就应该关注不同的Token;当然也有可能是关注的pattern相同,但是关注的内容不同,即V不同。 但是大量的paper表明,transformer或Bert的特定层有独特的功能,底层更偏向于关注语法;顶层更偏
相关文章
相关标签/搜索