Transformer Encoder multi-head-Attention的理解

将第一列的所有词表示成[6,9]的词向量,3个batch_size形成一个3维的矩阵向量 [batch_size,seq_length,embedding_dim]=[3,6,9] 初始化3个[9,9]的权重矩阵,分别是Query_w,Key_W,Value_W,用于模型参数更新 Query_w,Key_W,Value_W分别于每一batch_size相乘得到Q,K,V3个矩阵 超参数设置head
相关文章
相关标签/搜索