【NLP】谈谈Transformer

@toc[文章目录] 一. 从RNN到Transformer 文字数据由于天然具有序列特性,与图像数据是不同的,因此最初的特征提取器(类似于图像中的CNN)采用了RNN结构: 对RNN有一定了解的话,就会知道RNN的两个明显问题: 效率问题:需要逐个词进行处理,后一个词要等到前一个词的隐状态输出以后才能开始处理,因此无法并行处理 如果传递距离过长还会有梯度消失、梯度爆炸和遗忘问题 为了解决第二个问
相关文章
相关标签/搜索