谈一谈对transformer的理解(代码)

关于transformer的原理,这里就不多说,主要还是结合论文中的图来对代码进行一下讲解。 看这张图,其实可以看到最核心的部分就是下面这一块: 关于讲解,我就直接写在代码里面,用中文来对其进行详细的一个介绍。相对应的代码如下:   class ScaledDotProductAttention(nn.Module): ''' Scaled Dot-Product Attention ''
相关文章
相关标签/搜索