Transformer中的Layer和heads到底是什么?

上图是Transformer中编码器的部分,谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12 分别表示的意思是: 12个transformer-block(也称为12层) 768 embedding-dimension(字向量)的维度=768 12注意力机制头的个数
相关文章
相关标签/搜索