如下是本人每一章节整理的笔记：翻译

1.介绍（introduction）

论文整体介绍了多模态的五个方向/挑战：表示（representation）、映射（Translation）、对齐（Alignment）、融合（Fusion ）、联合学习（Co-learning）。视频

2.历史回顾（review）

对多模态应用领域进行了简单历史回顾：视听语音识别、多媒体内容检索、理解人类行为等方向应用进行简单的描述。

如下部分就开始对五个挑战/方向进行描述：

3.表示（representation）

定义：就是找到多模态信息的统一表示，在计算机中通常是向量或张量

表示方法

定义

面临困难

实现方法

适用情景

应用领域

联合表（joint）

将各个模态的数据源映射到同一个空间中进行表示

1.如何把不一样模态的数据结合起来

2.如何处理不一样层（level）的噪音

3.如何处理丢失的数据

神经网络

几率图模型

Sequential模型

输入全部模态数据来得出结果，如输入语音和图片来得出识别结果

视听语音识别、多模态手势识别

协同表示

（coordinated）

分别将各模态投影到独立的空间中表示，可是这些空间有约束关系

类似度模型

结构化模型

输入一种模态来得出结果，如输入一张狗的图片，输出“狗”的文本

多模态检索和翻译、grounding、零样本学习

4.映射（Translation/Mapping）

定义：映射就是把一个模态的信息映射成另外一个模态的信息

映射方法	定义	面临的困难	实现方法	应用领域
基于例子模型（example-based）	在多模态之间创建字典，造成对应关系	因为答案一般很是开放和主观，难以实现评估，如一张图片的描述文字能够有多种	基于检索模型 Combination-based模型	媒体字幕生成视频描述文本生成图片
生成式模型（generative）	经过训练，让模型产生映射能力	基于语法模型编码解码模型连续生成模型

映射方法

定义

面临的困难

实现方法

应用领域

基于例子模型

（example-based）

在多模态之间创建字典，造成对应关系

因为答案一般很是开放和主观，难以实现评估，如一张图片的描述文字能够有多种

基于检索模型

Combination-based模型

媒体字幕生成

视频描述

文本生成图片

生成式模型

（generative）

经过训练，让模型产生映射能力

基于语法模型

编码解码模型

连续生成模型

5.对齐（Alignment）

定义：寻找多种模态的子成分之间的关系和对应，如图片中的狗对齐文本中的狗

对齐方法	定义	面临的困难	实现方法
显式对齐（explicit）	显式对齐就是对齐任务的子结构，如菜谱步骤和视频的对齐	1.不多有显式对齐标注的数据集 2.在模态之间设置类似度指标很困难 3.存在多种对应关系以及不是每种模态的元素在另外一模态都有对应	无监督方法 (弱)监督方法
隐式对齐（implicit）	隐式对齐用做另外一个任务的中间步骤，如文本检索图像，单词和图像区域的对齐	图模型神经网络

对齐方法

定义

面临的困难

实现方法

显式对齐

（explicit）

显式对齐就是对齐任务的子结构，如菜谱步骤和视频的对齐

1.不多有显式对齐标注的数据集

2.在模态之间设置类似度指标很困难

3.存在多种对应关系以及不是每种模态的元素在另外一模态都有对应

无监督方法

(弱)监督方法

隐式对齐

（implicit）

隐式对齐用做另外一个任务的中间步骤，如文本检索图像，单词和图像区域的对齐

图模型

神经网络

6.融合（Fusion ）

定义：将多个模态的信息整合到一块儿来预测结果

融合方法	定义	面临的困难	实现方法	适用场景	应用领域
无模型方法	不依赖与某个特定的机器学习算法	1.信号可能不是时序对齐的（密集连续的信号和稀疏的事件），好比一段视频只对应一个单词 2.每种模态在不一样时间点可能会出现不一样类型和不一样层次的噪音	特征融合决策融合混合融合	它们几乎可使用任何单模分类器或回归器来实现	多模态说话者（speaker）识别多媒体事件检测
基于模型的方法	显式的在构造中完成融合	多核学习图模型神经网络	在数据量有限或者模型的可解释性很重要的时候，多核学习和图模型更好	物标分类表情识别视听语音识别

融合方法

定义

面临的困难

实现方法

适用场景

应用领域

无模型方法

不依赖与某个特定的机器学习算法

1.信号可能不是时序对齐的（密集连续的信号和稀疏的事件），好比一段视频只对应一个单词

2.每种模态在不一样时间点可能会出现不一样类型和不一样层次的噪音

特征融合

决策融合

混合融合

它们几乎可使用任何单模分类器或回归器来实现

多模态说话者（speaker）识别

多媒体事件检测

基于模型的方法

显式的在构造中完成融合

多核学习

图模型

神经网络

在数据量有限或者模型的可解释性很重要的时候，多核学习和图模型更好

物标分类

表情识别

视听语音识别

7.联合学习（Co-learning）

定义：经过数据源丰富的模态来辅助数据源稀少的模态进行学习

按数据分类	定义	实现方法	应用领域
平行数据	来自相同的数据集，实例之间有直接的对应关系	Co-training Transfer learning	视觉分类动做识别视听语音识别语义类似度估计
非平行数据	来自不一样的数据集，没有重叠的实例，但在通常类别或概念重叠	Transfer learning Conceptual grounding Zero shot learning
混合数据	实例或概念由第三种模式或数据集链接	Bridging

按数据分类

定义

实现方法

应用领域

平行数据

来自相同的数据集，实例之间有直接的对应关系

Co-training

Transfer learning

视觉分类

动做识别

视听语音识别

语义类似度估计

非平行数据

来自不一样的数据集，没有重叠的实例，但在通常类别或概念重叠

Transfer learning

Conceptual grounding

Zero shot learning

混合数据

实例或概念由第三种模式或数据集链接

Bridging

8.结论（conclusion）

做者在结尾讲到，之前对融合这个方向作了很长时间研究，可是近段时间研究者们更热衷表示和映射这两个方向

Multimodal Machine Learning: A Survey and Taxonomy/多模态机器学习综述

1.介绍（introduction）

2.历史回顾（review）

3.表示（representation）

4.映射（Translation/Mapping）

5.对齐（Alignment）

6.融合（Fusion ）

7.联合学习（Co-learning）

8.结论（conclusion）