attention机制深入理解

时间 2021-01-08

原文原文链接

首先也是最重要的，上图左右，只是画法不同，左边是RNN encoder-decoder画法，右边是machine reading相关论文以及 transformer和fairseq论文里的图的画法对于最上图的左图，有下图，a是加的权值，h是encoder的states （个人理解soft attention和hard attention，是权值a的计算方式不同）同理可理解最上图的右图