transformer模型中的self-attention和multi-head-attention机制

对于《Attention is all you need》这篇文章中提到的transformer模型,本身最初阅读的时候并非很理解,因而决定从头开始,一点一点梳理transformer模型。这篇论文主要亮点在于:网络 (1)不一样于以往主流机器翻译使用基于RNN的seq2seq模型框架,该论文用attention机制代替了RNN搭建了整个模型框架。框架 (2)提出了多头注意力(Multi-head
相关文章
相关标签/搜索