Transformer 学习笔记

时间 2020-12-30

原文原文链接

传统 RNN 存在问题处理 Seq2seq 最常用的就是 RNN。RNN 的问题在于无法 Parallel (并行处理)，可以用 CNN 解决这个问题，但是 CNN 能够考虑的特征向量非常少，而解决这个问题又需要通过再次叠加 CNN 来解决。为了解决这个问题，引入了 Self-Attention Layer，其输入是一个 sequence 输出也是一个 sequence，能够达到跟 RNN 一