深度学习(二十五)——Attention(2)

Attention(续) Multi-Head Attention 这个是Google提出的新概念,是Attention机制的完善。不过从形式上看,它其实就再简单不过了,就是把Q,K,V通过参数矩阵映射一下,然后再做Attention,把这个过程重复做h次,结果拼接起来就行了,可谓“大道至简”了。具体来说: headi=Attention(QWQi,KWKi,VWVi) h e a d i = A
相关文章
相关标签/搜索