Stanford 深度自然语言处理 学习笔记(十)

  注意力机制 为各隐层节点分配不同的注意力(权重)。可按需访问隐层状态。 利用注意力模型在源和目标之间建立隐式的关联。可以看成一种对齐。 打分函数————>分数—softmax—>权重。加权和就是上下文向量。 用到了编码器的全部隐层状态信息。不同时刻分配的权重不同。 第二种方法使ht和hs形成更复杂的交互。第三种方法使用单层神经网络,ht和hs没有交互。   coverage机制
相关文章
相关标签/搜索