Attention is All You Need 论文笔记

文章目录 概述 背景 模型架构 概述 主流的序列转换模型(dominant sequence transduction models)都是基于复杂的递归神经网络或者卷积神经网络,包括一个编码器(encoder)和一个解码器(decoder) 表现最好的模型是利用注意力机制将编码器和解码器连接起来 我们提出了一个简单的网络架构Transformer,简单地基于注意力机制,并且不用递归和卷积操作 在实
相关文章
相关标签/搜索