关于multi-head的一点思考

时间 2020-12-20

原文原文链接

Google于2017年提出了Transformer，而提出该模型的论文名为《Attention is all you need》，之前翻译该论文的时候并没有太多注意attention，更多的放在了整体的模型结构上。最近面试了一个候选人，他介绍项目用到的AOA时，提到了从“横向”和“纵向”两个维度做softmax，突然让我对Transformer中的multi-head attention有了新的