拆 Transformer 系列二：Multi- Head Attention 机制详解

时间 2020-12-23

原文原文链接

在「拆 Transformer 系列一：Encoder-Decoder 模型架构详解」中有简单介绍 Attention，Self-Attention 以及 Multi-Head Attention，都只是在直观上介绍 Attention 的作用，如何能够像人的视觉注意力机制那样，记住关键信息，并且也介绍了 Self-Attention 机制如何能通过对自身注意力加权来学习句子内部结构以及一些语法特