Transformer及其变种

Transformer RNN无法并行计算-》Self Attention,每一个输出都保证看过所有的输入。 Attention: 吃两个向量,吐出这两个向量匹配的分数attention(q&k)=a。 为什么容易实现并行化(parallel) Mutihead Attention:每个head都关注不同的地方 但是,截至到目前为止,并没有考虑到输入序列顺序(位置参数)的问题!!! 为什么位置编码
相关文章
相关标签/搜索