Transformer论文详解,论文完整翻译(五)

Transformer论文详解,论文完整翻译(五) 第三章 模型结构(二) 3.2 attention 一个attention函数可以描述为,将query和key-value对做一个映射,然后输出。query,key,value和输出,都是向量。输出的计算方式是,对value进行加权求和,每个value的权重是query与相应key的一致性函数。 3.2.1 缩放的点积 Attention 我们称
相关文章
相关标签/搜索