transformer---李宏毅

什么是transformer?对于seq2seq模型,我们常用的是RNN,但我们所使用的RNN是按照时间步去计算的,缺少并行性,当我们的训练集很庞大时,我们的训练时间要很久,而李宏毅老师在视频里讲到,有人提出用CNN去替代RNN,如下图,左图为双向RNN,而右图为CNN去训练序列 我们看到右图中使用CNN对序列进行特征的提取,图中每一个三角形代表一个filter,我们第一层提取相邻的序列单词的特征
相关文章
相关标签/搜索