Self-Attention与Transformer

时间 2020-12-30

原文原文链接

1.由来在Transformer之前，做翻译的时候，一般用基于RNN的Encoder-Decoder模型。从X翻译到Y。但是这种方式是基于RNN模型，存在两个问题。一是RNN存在梯度消失的问题。（LSTM/GRU只是缓解这个问题）二是RNN 有时间上的方向性，不能用于并行操作。Transformer 摆脱了RNN这种问题。 2.Transformer 的整体框架输入的 x 1 , x 2

>>阅读原文<<

1. selfattention
2. selfattention记录
3. 如何理解SelfAttention
4. Transformer与seq2seq
5. Transformer与BERT详解
6. Transformer与BERT浅说
7. Transformer、Attention与seq2seq model
8. transformer详解：transformer/ universal transformer/ transformer-XL
9. 【Transformer】图解 Transformer
10. 自注意力与Transformer
更多相关文章...
• XSL-FO 与 XSLT - XSL-FO 教程
• PHP - AJAX 与 PHP - PHP教程
• Composer 安装与使用
• Java Agent入门实战（一）-Instrumentation介绍与使用