Transformer

时间 2020-12-22

标签深度学习 Pytorch 繁體版

原文原文链接

提出 CNNs 易于并行化，却不适合捕捉变长序列内的依赖关系。 RNNs 适合捕捉长距离变长序列的依赖，但是却难以实现并行化处理序列。为了整合CNN和RNN的优势，[Vaswani et al., 2017] 创新性地使用注意力机制设计了Transformer模型。该模型利用attention机制实现了并行化捕捉序列依赖，并且同时处理序列的每个位置的tokens，上述优势使得Transforme

>>阅读原文<<

1. transformer详解：transformer/ universal transformer/ transformer-XL
2. 【Transformer】图解 Transformer
3. transformer
4. Transformer
5. Transformer++
6. 学习Transformer（The Illustrated Transformer）
7. Transformer & Bert
8. 读Transformer
9. Transformer LambdaNetworks
10. Star-Transformer
更多相关文章...
• RxJava操作符（十）自定义操作符
• ☆基于Java Instrument的Agent实现