transformer模型分析

在介绍self attention时也提到,用CNN、RNN处理序列数据的时候,没法很好地进行并行计算,同时也会存在信息的丢失,于是transformer就选择直接舍弃CNN、RNN,彻底由attention机制构成。html 学习一个模型,我以为最重要的是首先要明白模型要作什么,以及它为何这样作,对transformer来讲,它本质上仍是一个encoder-decoder(seq2seq)模型,
相关文章
相关标签/搜索