自注意力的秘密.

跟着别人学转换器
参考地址
1,超参数文件
2,源汇词汇文件,预处理,就是词汇+次数的统计文件
3,加载数据,批量化数据文件,词与id创建一一对应关系.(一批一批的处理数据)
4,(实现编码器和解码器的)模型文件(重点)
5,训练代码(模型,损失函数)
6,评估.web

1,超参数:批大小,学习速率,最大词长度,最小词数,隐藏节点数(或许就是神经单元数吧),块数(加解码块数)svg

4,模型.
1,先归一化,
2,词嵌入.估计就是将词=>映射为词的数字表示.这个其实仍是映射.
3,重点.这个就是注意力了.
为何要关注这个注意力模型?,有我的说得好.这个玩意儿最可以提取特征!!!,重中之重!!!
注意力模型(Attention Model)被普遍使用在天然语言处理、图像识别及语音识别等各类不一样类型的深度学习任务中,是深度学习技术中最值得关注与深刻了解的核心技术之一。
参考注意力模型
注意力模型,就是找的词与词间的关系,这个词与谁谁谁关系最好.对输出每个词时.注意力的值是不一样的.关键是如何找出注意力关系矩阵呢?如何学会呢?
公式:yi=f1(Ci,y[0…i)),这里的Ci是关系权重.
Ci=g(关系向量*词嵌入向量),所谓的g,基本上都是加个权,或者就是1.
因此.实质上很简单的表示,这些人搞得复杂得很.
看见没有,仔细看注意力矩阵的权重,最后是根据上个输出的词与前面的每一个词的类似度来获得的.即越类似,权重越大.这就是词嵌入的威力,能够判断词与词之间的类似度.
什么是对齐?对齐就是类似度断定余弦函数的问题.
注意力本质图
仔细看.人人均可以搞懂注意力.这里的键值对.查询是什么意思?
查询是目标词的词向量即词嵌入.键是什么意思?键就是源词的词向量.值呢?值就是每一个源词与目标词的类似度.因此,注意力的秘密暴露了.就是类似度.因此,词嵌入的发展会更一步增强.而后就是bert,=>xlnet!类似度就是秘密.秘密就是类似度.
因此,所谓的三元素查询,键,值,妈妈不再担忧我不知道这是什么鬼东西了.
类似度,就是可替换性.词与词之间的可替换性.而后再把结构搞定..
若是是常规的Target不等于Source情形下的注意力计算,其物理含义正如上文所讲,好比对于机器翻译来讲,本质上是目标语单词和源语单词之间的一种单词对齐机制。那么若是是Self Attention机制,一个很天然的问题是:经过Self Attention到底学到了哪些规律或者抽取出了哪些特征呢?
上面是人家写的.仔细看.
自注意力.自注意力有啥用?
对齐,也就是找类似,找注意力的过程!!!图片对齐,狗与狗的图片对应.函数