Transformer

时间 2020-12-22

原文原文链接

Transformer里最为核心的机制是Self-attention. 输入为句子的矩阵，先分别通过三个全连接矩阵将输入矩阵变化为三个矩阵，分别为Q, K和V，然后通过Q和K的计算得到一些权值，将这些权值加权求和到V矩阵上，便可以得到一个新的矩阵表示。 Self-attention机制中的多头机制便是将这样的操作分别进行多次，这样能让句子的表征充分学习到不同的侧重点，最终将这些多头学习出来的表征c

>>阅读原文<<

1. transformer详解：transformer/ universal transformer/ transformer-XL
2. 【Transformer】图解 Transformer
3. transformer
4. Transformer
5. Transformer++
6. 学习Transformer（The Illustrated Transformer）
7. Transformer & Bert
8. 读Transformer
9. Transformer LambdaNetworks
10. Star-Transformer
更多相关文章...
• RxJava操作符（十）自定义操作符
• ☆基于Java Instrument的Agent实现