注意力机制 pointer network

参考1:李宏毅 https://www.bilibili.com/video/av9770302?p=9 (上图应该省略了一个归一化层,模型通过标签知道应该(x1,y1)对应的值是最大的,就会学习到这样一个概率分布,这里直接将attention的weight作为output的distribution)  把(x1,y1)丢进去产生新的z1,继而产生新的attention的weight 当END的a
相关文章
相关标签/搜索