BERT相关知识讲解(1)之 transformer

参考自:http://fancyerii.github.io/2019/03/09/transformer-codes/ 每个词都是有其他词的信息的,这个是 FNN 的区别 与普通的 attention 相比,Query可以看作是decoder的隐状态,Key可以看作是encoder的输出,Value可以看作是encoder的输出 多头其实就是多组 矩阵对,每一组QKV都可以看作某种信息的抽取 如
相关文章
相关标签/搜索