Transformer++

时间 2020-12-28

标签中文自然语言处理 Paper 繁體版

原文原文链接

我们使用如图[1]所示的编码器-解码器架构来对一个序列进行序列建模，该架构遵循Transformer[15]中提出的架构。我们提出了一种计算注意函数的新方法，同时学习了新的多头和传统的多头。对于给定的H(多个头的总数)，我们在H/2 heads中使用自我注意来捕获全局依赖关系，并在H/2 heads中使用基于卷积的注

>>阅读原文<<

1. transformer详解：transformer/ universal transformer/ transformer-XL
2. 【Transformer】图解 Transformer
3. transformer
4. Transformer
5. 学习Transformer（The Illustrated Transformer）
6. Transformer & Bert
7. 读Transformer
8. Transformer LambdaNetworks
9. Star-Transformer
10. Bert&transformer
更多相关文章...
• RxJava操作符（十）自定义操作符
• ☆基于Java Instrument的Agent实现