关于Transformer的若干问题整理记录& 思考

模型总览: 1.Transformer的结构是什么样的? Transformer本身还是一个典型的encoder-decoder模型,如果从模型层面来看,Transformer实际上就像一个seq2seq with attention的模型,下面大概说明一下Transformer的结构以及各个模块的组成。 (1). Encoder端 & Decoder端总览 Encoder端由N(原论文中N=6)
相关文章
相关标签/搜索