Transformer及其变种

时间 2021-01-06

原文原文链接

Transformer RNN无法并行计算-》Self Attention，每一个输出都保证看过所有的输入。 Attention: 吃两个向量，吐出这两个向量匹配的分数attention(q&k)=a。为什么容易实现并行化（parallel） Mutihead Attention：每个head都关注不同的地方但是，截至到目前为止，并没有考虑到输入序列顺序（位置参数）的问题！！！为什么位置编码