Multi-head整理—为什么 Transformer 需要进行 Multi-head Attention？

时间 2021-07-12

标签 Multi-head transformer head self-attention 繁體版

原文原文链接

一.Attention is all you need论文中讲模型分为多个头，形成多个子空间，每个头关注不同方面的信息。如果Multi-Head作用是关注句子的不同方面，那么不同的head就应该关注不同的Token；当然也有可能是关注的pattern相同，但是关注的内容不同，即V不同。但是大量的paper表明，transformer或Bert的特定层有独特的功能，底层更偏向于关注语法；顶层更偏

>>阅读原文<<