注意力机制的改进

时间 2020-12-30

原文原文链接

Multi-Head Attention 对于Q和K一般先将降维然后在计算注意力，然后将此操作重复多次(h次)最后将结果拼接即为多头注意力。这里假设降维的Q、K维度是 n ∗ ( d / h ) n*(d/h) n∗(d/h)，点积后为 n ∗ n n*n n∗n，也就是说要用一个 2 ∗ n ∗ ( d / h ) 2*n*(d/h) 2∗n∗(d/h)参数量去逼近一个 n 2 n^2 n2的参