从宏观到微观 零基础 详解bert

bert模型的文章有许多,不过看了以后对整个模型的结构和数据流并没有太直观的理解,在看了源代码后有了自己的一些的理解写在下面,不一定全对,在学习中会不断更新,如果有不同意见欢迎评论提出。 首先bert的主体结构(base版),简单用一个图表示: 对应贴一下论文中的参数说明 这里的L=12指的是网络层数(深度)为12层; A=12是transformer块中的多头自注意力的头数,需要注意的是bert
相关文章
相关标签/搜索