Attention

时间 2021-05-30

原文原文链接

Attention的常见做法: 第一步：S=F(Q,K) 第二步：A=Softmax（S）第三步：multiply(A,V) 第一步是个相似度的计算，常见的相似度计算有点乘，拼接，感知机。第二步是搞成概率的样子，就是相加为1，第三步是一个点乘就是让每个部分乘上他的权重然后得到最后Attention输出的值。 TensorFlow中两个实现： tf.nn.softmax(S) tf.multipl