关于Transformer的一点点思考

transformer介绍

transformer是一种带有多头自注意力的seq2seq模型。它由编码器和解码器两大部分构成。由于其自带的多头自注意力机制的提取特征结构,让其在NLP领域大放光彩。python

关于transformer编码器特征提取的思考

和CNN同样,解码器和编码器分别由6个单元组成,从输入依次往上提取的语言特征愈来愈高级,直到最后一级做为解码器的输入。CNN随着层数的增长,后面的特征图感觉野逐渐增大,而transformer却在每一层都能感觉前一层的每一处。虽然残差结构可以将低层次的特征都能传递到高层次语言特征。可是这种残差形式的特征相加不是那么特别合情合理。不一样的特征应该拥有某种非线性关系,而不是仅仅相加,建议去掉残差,将编码器的低层次特征传到对应的解码器的低层次特征。编码器的高层次特征传到解码器的高层次特征呢,这样更合情合理。web

关于transformer编码器在评分模型的使用

假如一我的的征信做为文档,由于transformer的编码器是典型的每个地方关注周围的数据,征信文档直接做为transoformer的输入,进行分类,是否能够代替xgboost,logistic呢?但这会遇到长文本问题。transformer编码器的每一个单元的输入和输出长度是512。像CNN同样,愈来愈少,进行适当修改,经过解码器的单元间链接降维矩阵,让下面的长度变长,上面的长度变短,让其可以试用长文本分类。就能适用于长文本分类。这样的好处是下降计算量。这样的话就能避免逻辑回归,xgboost等提取特征的问题。直接针对长文本分类打分。transformer的理论相对容易理解,为了实现多文档分类。能够每个文档各分配一个transformer而后进行分类,固然会增长管理成本。sql

关于transformer输入的思考

汉字的字形和发音自己应该具备必定的语言学特征。字形特征能够过from PIL import Image将每一个汉字变成图片,图片矩阵通过一个待优化参数W变成向量直接接到嵌入特征上面,发音特征经过乘以一个恒常数向量,输入到transformer,这样在中文上能够做为一种尝试。不一样类型特征相加并非特别合理。也能够借鉴多模态的思路。svg

关于transformer应用的思考

英文翻译中文及其逆向,伪代码到python代码及其逆向,伪代码到sql代码及其逆向,多元方程求解(不一样的一组变量,输出的是多个取值的函数的函数求解),评分模型的使用,文本分类等NLP任务。函数