自注意力学习笔记

一个多月以前看了看,现在有些记不清了,大体回忆一下,先写一部分。   http://jalammar.github.io/illustrated-transformer/   要想搞明白,最快速的方法,不是看网上乱七八糟的介绍,直接看上面的链接。用心点,很快读完,基本就掌握自注意力了。 先说我看的时候一个疑惑, 就说这张图吧,Wq和Wk,这两个是完全对称的,差异在哪里?为什么取的名字不一样? 再看
相关文章
相关标签/搜索