做者创造了一个组件MAG, 用于使BERT 或者 XLNet这种 预训练的模型能对 多模态的信息进行 Fine-tuneblog
组件的结构以下:
MAG的主要思想在于:
图片
非语言模态(其它两个模态)会影响词汇的意义,进而影响向量在语义空间中的位置, 因此非语言和语言共同决定了向量在语义空间中的新位置。 在此图中Zi 表示 只受文本模态影响的位置, 咱们经过引入 audio, visual 两个模态的信息获得一个偏移量Hi, 而后计算获得新位置io
其中MAG的结构 由 AAAI2019 Words can shift Dynamically adjusting word representations using nonverbal behaviors 论文中的结构的一部分来的
MAG的加入
class
例如在BERT 中加入MAG, 咱们在第j 层的输出Z, 与 j +1 层中间加入MAG,导入 另外两个模态的信息
im
问题:call
- 没有想到为何可以进行fine-tune
- 把一个AAAI2019年的组件 居然用到BERT中, 这是我是没有想到的