Transformers 是一种图神经网络

时间 2021-01-12

原文原文链接

文章目录 NLP 的表示学习拆解 Transformer 多头注意力机制尺度问题以及前馈层用 GNNs 构建图的表示句子是完全联通的词图我们可以相互学到点什么？全连通图是 NLP 的最佳输入格式吗？如何学习长期的依赖？ Transformers 在学习 “神经语法吗” ？为什是多头注意力？为什么是注意力？为什么训练 Transformers 这么难？进一步的阅读转载来源:ht