transformer 原理及源码

左边encoder ,右边是decoder 图中是4维 ,论文中是512,x 乘 WQ,WK,WV(随机初始化)得到 q ,k,v。 为何要乘 WQ,WK,WV 而不直接使用qkv 首先增加参数可以增加学习能力,如果没经过 WQ,WK,WV,则qkv一般就固定的值,后面q 乘 k的时候,两个相似度大的向量会得到很大的值 Multi-headed
相关文章
相关标签/搜索