Attention机制鸟瞰(16年开始)

背景知识 Attention机制可以理解为一种文本聚焦方法,基本思想是对文本分配注意力权重,把注意力集中在相关的文本内容,增加这部分的贡献。 假设q_t就是时刻t下的query向量,K是key矩阵,k_s是其中一个key向量,V是value矩阵,我们先对q_t和每个key进行相似度计算得到一个非归一化的score分数: 这里用到是最简单的点乘,分母是为了调节内积结果,使得内积不那么大。 然后对sc
相关文章
相关标签/搜索