Transformer中的Layer和heads到底是什么？

时间 2020-12-23

标签自然语言处理繁體版

原文原文链接

上图是Transformer中编码器的部分，谷歌发布的BERT模型中有一个是chinese_L-12_H-768_A-12 分别表示的意思是： 12个transformer-block(也称为12层) 768 embedding-dimension(字向量)的维度=768 12注意力机制头的个数

>>阅读原文<<

相关文章

相关标签/搜索

什么是数学

XLink 和 XPointer 教程

每日一句

每一个你不满意的现在，都有一个你没有努力的曾经。

最新文章

本站公众号

欢迎关注本站公众号,获取更多信息

相关文章

>>更多相关文章<<