《Improved Fusion of Visual and Language Representations by Dense Symmetric Co-Attention for VQA》读后感想

跟随attetion工作阅读该文 摘要 该文给我带来的思考首先于注意力的使用,它采用的co-attention结构,注意力函数类似于attention is all you need 类似采用多层尺度乘法注意,第二它采用拉伸的特征向量表示句子或图像。 模型结构 如图所示,Q 和V分别是图像和问句的特征表示,大小为d×T, d×N,T 为特征图展平后长度,N为句子长度。该模型共有L个堆叠的Dense
相关文章
相关标签/搜索