Transformer

本文章参考以下博客,如有不懂,可看原博客 参考文章1 参考文章2 整体架构 Transformer其实是一个Seq2Seq模型,左边一个encoder把输入读进去,右边一个decoder得到输出 Encoder(N=6层,每层包括2个layers) 主要是由self-attention和前馈神经网络构成 全连接有两层,第一层的激活函数是ReLU,第二层是一个线性激活函数,可以表示为: Transf
相关文章
相关标签/搜索