Self-Attention与Transformer

1.由来 在Transformer之前,做翻译的时候,一般用基于RNN的Encoder-Decoder模型。从X翻译到Y。 但是这种方式是基于RNN模型,存在两个问题。 一是RNN存在梯度消失的问题。(LSTM/GRU只是缓解这个问题) 二是RNN 有时间上的方向性,不能用于并行操作。Transformer 摆脱了RNN这种问题。 2.Transformer 的整体框架 输入的 x 1 , x 2
相关文章
相关标签/搜索