Transformer

Transformer里最为核心的机制是Self-attention. 输入为句子的矩阵,先分别通过三个全连接矩阵将输入矩阵变化为三个矩阵,分别为Q, K和V,然后通过Q和K的计算得到一些权值,将这些权值加权求和到V矩阵上,便可以得到一个新的矩阵表示。 Self-attention机制中的多头机制便是将这样的操作分别进行多次,这样能让句子的表征充分学习到不同的侧重点,最终将这些多头学习出来的表征c
相关文章
相关标签/搜索