十分钟了解Transformers的基本概念

RNN已死,注意力万岁? 多年来,我们一直在使用RNN,LSTM和GRU解决顺序问题,您突然希望我们将其全部丢弃吗? 嗯,是!! 所有这三种架构的最大问题是它们进行顺序处理。 而且它们也不擅长处理长期依赖关系(即使使用LSTM和GRU的网络)。 Transformers 提供了一种可并行处理顺序数据的方式,因此,它不仅比以前的体系结构快得多,而且在处理长期依赖性方面也非常出色。 那么什么是 Tra
相关文章
相关标签/搜索