transformer 模型(self-attention自注意力)

transformer模型在《Attention is all you need》论文中提出网络 这篇论文主要亮点在于:1)不一样于以往主流机器翻译使用基于RNN的seq2seq模型框架,该论文用attention机制代替了RNN搭建了整个模型框架。2)提出了多头注意力(Multi-headed attention)机制方法,在编码器和解码器中大量的使用了多头自注意力机制(Multi-headed
相关文章
相关标签/搜索