【NLP复习】Attention机制

Attention机制通过对encoder所有时间步的hidden state加权平均来得到背景变量。 其中a就是softmax把Q跟K的值们归一化了 机器翻译: Q是decoder每一步的hidden state K是encoder每一步的hidden state V=K 通过Q跟K算出V中hidden states们的权重,让V中这些hidden state加权求和 文本分类(self-Att
相关文章
相关标签/搜索