transformer之前的attention

前言  写着写着Transformer又新开一篇介绍Attention机制,因为一个模型往往不是腾空出世的,它建立在许多基础之上。但精力有限,我们又不能从一点深究到很远,所以要选择自己觉得有必要花时间看的知识点。  这篇文章就看看transformer中的self-attention与attention机制到底有什么牵连。主要总结两篇博客,但建议还是找国外的好一点。 【1】https://zhua
相关文章
相关标签/搜索