论文笔记:X-Linear Attention Networks for Image Captioning

创新点: 我们介绍以一种统一的注意力块—X线性注意块,它完全采用双线性池来选择性地利用视觉信息或执行多模态推理。 技术上,X线性注意力块同时利用空间和信道双线性注意分布来捕获输入单模态或多模态之间的二阶相互作用特征。 当我们回顾传统的注意力机制时,可以发现它往往利用线性融合来进行跨模态的特征交互学习,所以其本质只挖掘了不同模态间一阶的特征交互,大大限制了注意力机制在视觉与语言这一复杂的跨模态内容推
相关文章
相关标签/搜索