学习笔记之Transformer Self-Attention机制

时间 2020-12-23

标签机器学习繁體版

原文原文链接

Transformer 台大李宏毅教授链接 Self-Attention 传统RNN不容易平行化，比如b4就得知道a1，a2，a3，a4才能算出来使用CNN可以实现平行化，比如图中的一个黄三角形代表一个filter，他可以并行执行的。在更高层filter的layer可以获取到更长的信息，比如蓝三角形，它的输入时第一层的输出 Self-Attention可以替代双向RNN 可以并行计算能够获得

>>阅读原文<<