Transformer的原理

时间 2020-12-30

原文原文链接

前言这是第10个任务，本次任务主要是一下几个方面： Transformer的原理 BERT的原理利用预训练的BERT模型将句子转换为句向量，进行文本分类本文主要接受Transformer 原理，2017年，Google发表论文《Attention is All You Need》，提出经典网络结构Transformer，全部采用Attention结构的方式，代替了传统的Encoder-Dec