注意力机制----transformer中注意力机制

注意力机制的计算: 要计算s_j就要先计算c_j, 要计算c_j就要先计算a_j:   将decoder当前状态s_j与m个h_i做运算得到权重向量(权重的具体计算见下) h_i,s_j 各自乘以权重矩阵W_K,W_Q k,q进行内积 经softmax 一共有三个“权重矩阵”: 在seq2seq版本注意力机制中,c的更新依靠: a和h(encoder状态) 在transformer版本的注意力机制
相关文章
相关标签/搜索