Transformer中的Positional Encoding

时间 2020-12-30

原文原文链接

参考资料：https://wmathor.com/index.php/archives/1453/ 首先你需要知道，Transformer 是以字作为输入，将字进行字嵌入之后，再与位置嵌入进行相加（不是拼接，就是单纯的对应位置上的数值进行加和）需要使用位置嵌入的原因也很简单，因为 Transformer 摈弃了 RNN 的结构，因此需要一个东西来标记各个字之间的时序 or 位置关系，而这个