attention机制 深入理解

首先也是最重要的,上图左右,只是画法不同,左边是RNN encoder-decoder画法,右边是machine reading相关论文 以及 transformer和fairseq论文里的图的画法 对于最上图的左图,有下图,a是加的权值,h是encoder的states (个人理解soft attention和hard attention,是权值a的计算方式不同) 同理可理解最上图的右图
相关文章
相关标签/搜索