Transformer的学习笔记

1 前言 Transformer是一个很厉害的模型呀~ 2 Self-Attention ​​ Note:这里的 W q W^q Wq、 W k W^k Wk和 W v W^v Wv的权值是不共享的,也就是独立的; 我感觉原因可能是因为,不同时刻的序列 a i a^i ai的特征可能不太一样,所以这里没有用相同的kernel来提取特征; (CNN中,所有loc的region都是使用的相同的卷积ke
相关文章
相关标签/搜索