Transformer 学习笔记

传统 RNN 存在问题 处理 Seq2seq 最常用的就是 RNN。RNN 的问题在于无法 Parallel (并行处理),可以用 CNN 解决这个问题,但是 CNN 能够考虑的特征向量非常少,而解决这个问题又需要通过再次叠加 CNN 来解决。 为了解决这个问题,引入了 Self-Attention Layer,其输入是一个 sequence 输出也是一个 sequence,能够达到跟 RNN 一
相关文章
相关标签/搜索