attention is all you need笔记

传统 encoder 输入:符号序列 x1,…,xn 输出:连续表示z1,…,zn decoder 输入:连续表示z1,…,zn 输出:符号序列y1,….ym   作者原创 transformer 使用堆叠的self-attention和point-wise,全连接层。(左encoder,右decoder) transformer结构图 encoder 由6个相同层堆叠而成。每个层有2个子层,首先
相关文章
相关标签/搜索