Attention机制的小理解

1.传统的encode-decode模型      输入序列:函数      输出序列:学习      中间语义变量优化     因此对于,也就是编码                这就代表输入序列的每个元素对于输出序列的每个元素的做用是等价的,这显然是不合理的。好比机器翻译中,中文“我爱你”,对应英语中“I love you”。其中“我”对于“I”和“love”的翻译做用力显然不一样。为了解决这
相关文章
相关标签/搜索