从Attention到Transformer再到bert的理解

1.最原始的attention [1] Lin, Zhouhan, et al. ”A structured self-attentive sentence embedding.” arXiv preprint arXiv:1703.03130 (2017). 2. attention is all you need QKV:其实也是一个attention,求出来的还是权重,只是计算的方式不同:
相关文章
相关标签/搜索