学习笔记之Transformer Self-Attention机制

Transformer 台大李宏毅教授链接 Self-Attention 传统RNN不容易平行化,比如b4就得知道a1,a2,a3,a4才能算出来 使用CNN可以实现平行化,比如图中的一个黄三角形代表一个filter,他可以并行执行的。 在更高层filter的layer可以获取到更长的信息,比如蓝三角形,它的输入时第一层的输出 Self-Attention可以替代双向RNN 可以并行计算 能够获得
相关文章
相关标签/搜索