additive attention 与 dot product attention

最常用的注意力机制为additive attention 和dot product attention additive attention : 在 d k d_k dk​较小时,两者中additive attention优于不做scale的dot product attention,当 d k d_k dk​较大时,dot product attention方差变大,会导致softmax函数中梯
相关文章
相关标签/搜索