Bert 结构理论 笔记 Bert理解

Bert理解 Attention Attention函数的本质可以被描述为一个查询(query)到一系列(键key-值value)对的映射     在计算attention时主要分为三步,第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;然后第二步一般是使用一个softmax函数对这些权重进行归一化;最后将权重和相应的键值value进行加权求和得到最后
相关文章
相关标签/搜索