Transformer++

                                         我们使用如图[1]所示的编码器-解码器架构来对一个序列进行序列建模,该架构遵循Transformer[15]中提出的架构。我们提出了一种计算注意函数的新方法,同时学习了新的多头和传统的多头。对于给定的H(多个头的总数),我们在H/2 heads中使用自我注意来捕获全局依赖关系,并在H/2 heads中使用基于卷积的注
相关文章
相关标签/搜索