关于transformer模型总结(源码)

本文主要是对transfermer模型的源码进行解析: transfermer主要结构是由encoder和decoder构成。其中,encoder是由embedding + positional_encoding做为输入,而后加一个dropout层,而后输入放到6个multihead_attention构成的结构中,每一个multihead_attention后面跟一个feedforward。而d
相关文章
相关标签/搜索