深度学习（二十五）——Attention（2）

时间 2020-12-28

原文原文链接

Attention（续） Multi-Head Attention 这个是Google提出的新概念，是Attention机制的完善。不过从形式上看，它其实就再简单不过了，就是把Q,K,V通过参数矩阵映射一下，然后再做Attention，把这个过程重复做h次，结果拼接起来就行了，可谓“大道至简”了。具体来说： headi=Attention(QWQi,KWKi,VWVi) h e a d i = A