Attention Is All Your Need

Paper : Attention Is All Your Need Code : official 摘要 本文提出了经典的Attention与Multi Head Attention 机制,并利用这两部分构造了一个Transformer结构,为BERT的提出打下基础。作者在NLP相关的数据集上进行测试,相比CNN和RNN给出了以下几个优点 并行度高,训练时间短 表现更好 可以更好的处理长距离依赖
相关文章
相关标签/搜索