关于multi-head的 一点思考

Google于2017年提出了Transformer,而提出该模型的论文名为《Attention is all you need》,之前翻译该论文的时候并没有太多注意attention,更多的放在了整体的模型结构上。最近面试了一个候选人,他介绍项目用到的AOA时,提到了从“横向”和“纵向”两个维度做softmax,突然让我对Transformer中的multi-head attention有了新的
相关文章
相关标签/搜索