GPT-2代码解读[3]:Block

GPT-2代码解读[3]:Block Overview 模型由12个基本块构成,每一块由三部分构成,咱们已经考虑过和Embedding与Attention相关的部分,如今考虑最后一部分:Add&MLP。html 记Attention层的输出为a,块输入为x。python Add&MLP层的信息流动以下:web x = x + a x=x+a x=x+aapp m = m l p ( x ) m=m
相关文章
相关标签/搜索