注意力机制 pointer network

时间 2021-01-02

原文原文链接

参考1：李宏毅 https://www.bilibili.com/video/av9770302?p=9 （上图应该省略了一个归一化层，模型通过标签知道应该(x1,y1)对应的值是最大的，就会学习到这样一个概率分布，这里直接将attention的weight作为output的distribution）把(x1,y1)丢进去产生新的z1,继而产生新的attention的weight 当END的a