Transformer学习笔记

一、 Transformer Transformer结构是在《Attention is all you need》这篇论文中提出的,论文的几大亮点在于:1)不同于以往基于RNN的seq2seq模型,该论文中用attention机制替代了RNN搭建了整个模型框架;2)提出了多头注意力(Multi-headed attention)方法,在编码器和解码器中大量使用多头自注意力机制(Multi-head
相关文章
相关标签/搜索