深度学习建模训练总结(六):梳理NLP发展里程碑——细看transformer

之前也提到了,一般而言我们会采用LSTM处理输入的句子,根据上下文等信息调整词向量,但是LSTM终究有长期依赖问题,这是它的结构决定的,而self-attention的出现,既可以实现以上的目的,同时又避免了长期依赖问题,那为什么不用self-attention替代LSTM进行分析呢,这就是transformer提出的缘由。 简单来说,transformer就是在seq2seq的基础上,引入mul
相关文章
相关标签/搜索