Transformer Encoder multi-head-Attention的理解

时间 2020-12-30

原文原文链接

将第一列的所有词表示成[6,9]的词向量，3个batch_size形成一个3维的矩阵向量 [batch_size,seq_length,embedding_dim]=[3,6,9] 初始化3个[9,9]的权重矩阵，分别是Query_w,Key_W,Value_W,用于模型参数更新 Query_w,Key_W,Value_W分别于每一batch_size相乘得到Q，K，V3个矩阵超参数设置head