self-attention原理详解

该博客讲解的极其清晰,强烈推荐 https://jalammar.github.io/illustrated-transformer/ 以下内容源于此博客(转载翻译分享) 1、让我们首先将模型看作一个黑盒子。在机器翻译应用程序中,它将使用一种语言的句子,并将其翻译输出到另一种语言中。 2、打开黑盒子,我们看到了编码组件,解码组件以及它们之间的连接。 编码组件是一堆编码器(图中由6个编码器组成,数量
相关文章
相关标签/搜索