transformer模型核心图解

三图解万言!!! 模型图: 动画: 首先输入源语:“I arrived at the ” 第一层 self-attention 然后第二层 self-attention,输入是上一层attention的结果 然后第三层 self-attention,输入是上一层的attention结果。 这样 见过三次多头attention后,得到输入句子的句法树。 完了Decoder是< start> 开始,拿
相关文章
相关标签/搜索