随着4G的普及和5G的推出,内容消费的诉求愈来愈受到人们的重视。2019年互联网趋势报告指出在移动互联网行业总体增速放缓的大背景下,短视频行业异军突起,成为“行业黑洞”抢夺用户时间,尽管移动互联网人口红利见顶,新的增加点难以寻觅,但中国短视频人均使用时长及头部短视频平台日均活跃用户均持续增常(如图1所示)。算法
在淘宝,短视频业务一直以来都是很是重要的业务,是淘宝app从单一的商品导购app走向商品导购+内容消费的多元化app的关键所在。相较于单一的商品导购,商品导购+内容消费的模式有效增长用户粘性,提升用户的停留时长,最终得到GMV的持续增加。不只如此,2019年视频营销发展趋势白皮书指出目前视频内容的转发量已达到图文的12倍,视频营销已经成为品牌最爱的营销方式,使用视频营销比不使用视频营销收入增加速度快49%,且从搜索得到的网站流量多41%。现现在淘宝每一年新增内容数达数十亿,其中视频数占比持续提高,预计到2022年视频的占比会超过50%。如何对规模如此庞大的视频进行内容化理解,高效赋能视频运营和个性化分发变得极为关键。网络
视频内容化理解的首要问题是构建一个完备的、层次化的类目体系,相比于传统的淘宝商品类目体系,视频类目体系须要解决两大问题。app
虽然淘宝的商品类目体系能够部分代替视频类目体系的功能,但会致使短视频业务的用户心智和商品导购业务同质化,所以构建一套属于短视频业务本身的视频类目体系已经迫在眉睫。有了构建完成的视频类目体系,另一个更重要的问题是产出高效的视频分类算法,用于对海量的视频进行标签生成。为了得到好的点击效果,视频生产者每每会采用吸引眼球的封面图或者标题,可是和视频自己的内容关联性很弱。此外,淘宝的视频自然和商品有强关联性,如何利用好商品的信息也很是关键。框架
不一样于抖音美拍等其余视频的内容体系重新闻、科技、金融等领域作分类划分,淘宝的视频类目体系从商品导购、产品功能展现、商品知识获取等角度出发,由行业经验丰富的运营进行设计,包含了30+一级类目和150+二级类目,其中一级类目是对视频的领域的划分,例如服饰/家居日用/美食/萌宠等,二级类目是在一级类目的基础之上对视频的子领域的划分,例如一级类目服饰下的熟女穿搭/少女穿搭/儿童服饰/中老年穿搭等,图2是视频类目体系的几个案例。在这个体系之上多媒体算法团队投入近半年的时间提出了基于模态注意力机制的多模态分层视频分类算法。机器学习
▐ 视频分类的难点函数
多模态:淘宝短视频的信息是很是丰富的,有视频/封面图/文本/音频/商品等模态,分别刻画了短视频不一样维度的信息,这些信息的展现形式都是非结构化的,如何将非结构化的信息转化成结构化的特征是一大难点。不一样模态的信息在不一样的视频中对类别的贡献度也是不同的,小部分视频经过标题就能够简单地推测出类别,但大部分视频的标题有效信息过少,须要兼顾其余模态信息才能推测出类别,所以在算法的训练中如何协同不一样模态的特征,达到不一样模态特征互补的效果又是另外一个难点。学习
层次化label:单独使用二级类目的label虽然也能够进行算法的训练,可是没法使算法达到最优的效果,由于不一样一级类目下面的二级类目之间的差距是远大于同一个一级类目下面的二级类目之间的差距的,单独使用二级类目的label没法学习到这个信息。所以如何在算法的训练中充分利用一级类目+二级类目的层次化label一样是一个难点。测试
模态信息缺失:淘宝视频包含多种不一样的模态信息,然而这些视频不必定包含所有的模态信息,有些视频没有外挂商品,有些视频没有对应的视频标题或者摘要,还有的视频没有封面图。如何让算法可以自适应模态缺失的状况也是一个难点。优化
▐ 多模态分层视频分类算法框架图网站
针对创建高效准确的视频分类算法的迫切需求,解决视频分类中存在的诸多挑战,咱们提出了基于模态注意力机制的多模态分层视频分类算法,算法整体框架如图3所示。算法的核心主要分为3个部分:
(1) 预训练模型的选择,
(2) 模态融合方法的设计,
(3) 多目标的分类器的设计。
▐ 预训练模型的选择
随着硬件水平的提升以及大规模的预训练数据集的推出,迁移学习在深度学习任务中扮演的角色愈来愈重要。尤为是在缺少训练数据的状况下,使用预训练模型进行迁移学习可以加速loss收敛并显著提高下游任务的准确率。
(1) 视觉模态:视频和封面图共同构成了视觉模态信息,视频是视频内容的主体,包含了主要的内容信息,封面图是视频内容的精华,二者能够互相补充。在VGG1六、Inception 系列模型、ResNet等经典的图像分类模型中,咱们选择了Inception-Resnet v2[1]做为视觉特征提取的模型。这个模型是2016年Google推出的大规模图像分类模型,既具备Inception系列模型的优点,可以经过堆叠不一样的Inception Block增长网络的宽度提升算法的准确率,还加入了Resnet的残差学习单元(如图4所示),残差学习单元的输出由多个卷积层级联的输出和输入元素间相加,可以缓解网络退化的问题,增长深度网络的层数,有效提升视觉特征的的泛化性。
视频特征序列相较于普通的图像特征包含了更加丰富的信息,不一样特征之间具备时序相关性。咱们采用NetVLAD(如图3所示)做为视频特征的聚合网络。NetVLAD常出如今近几年国内外视频分类大赛的top方案中,以CNN的网络结构实现VLAD算法,构成了新生成的VLAD层,VLAD算法(如公式1所示)统计的是特征x和其相应的聚类中心c的残差和,a决定c是不是特征x距离最近的聚类中心。相比于Average Pooling,NetVLAD[2]能够经过聚类中心将视频序列特征转化为多个视频镜头特征,而后经过能够学习的权重对多个视频镜头加权求和得到全局特征向量。
(2) 音频模态:淘宝视频中包含大量的教程类视频,这些视频内容的关键信息经过音频表现出来,所以在淘宝视频分类中音频模态相当重要。咱们首先从淘宝视频中分离音频信号,经过计算MFCC特征将音频信号转换为图像输入,而后使用VGGish[3]提取音频特征序列。音频特征序列与视频特征序列相似,使用NetVLAD提取不一样镜头对应的音频特征,而后经过可学习的权重融合生成音频模态的全局特征向量。
(3)文本模态:视频内容中的文本包含了视频标题和视频摘要,是视频描述内容的大体归纳,对视频分类起到指导性的做用。文本模态,咱们使用Bert模型生成视频标题和视频摘要的全局特征向量。Bert是18年Google推出的大规模文本预训练模型,可谓是nlp领域大力出奇迹的表明,Bert用12层的transformer encoder将nlp任务的benchmark提升了一大截。相较于普通的word2vec,通过海量文本预训练的Bert可以在视频分类算法中引入更多的迁移知识,提供更精准的文本特征。
(4) 商品模态:商品模态是淘宝视频区别于站外视频的标志,是体现咱们的视频分类算法优点的关键所在。咱们沿用文本模态的Bert模型生成商品模态的全局特征向量。商品模态在推荐领域经常使用item_id lookup到商品的embedding矩阵再接入下游网络,然而咱们的视频分类算法是离线学习的,对于新发现的item_id不能很迅速地得到它的embedding特征,所以咱们使用Bert模型提取商品的标题和类目名称的文本特征,做为商品模态的全局特征向量。
▐ 模态融合方法的设计
淘宝视频的多模态信息十分丰富,不一样模态之间提供的信息内容并非彻底一致的。如何设计优秀的多模态特征融合方法,充分利用非结构化的多模态信息,将不一样模态间的特征对齐到同一特征空间,使得不一样模态信息之间取长补短,这是视频分类算法模型中最关键的模块。咱们比较了多种不一样的多模态特征融合方法,实验结果如图表格1所示。
(1) TFN和LMF(如图5所示)都是将多模态特征映射到不一样模态间外积的高维特征空间进行特征融合。TFN[6]经过模态之间的外积计算不一样模态的元素之间的相关性,但会极大的增长特征向量的维度,形成模型过大,难以训练。而LMF[7]是TFN的等价形式,利用低秩矩阵的分解,将本来的各模态间的先外积再全链接变换过程,等价为各个模态先单独线性变换到输出维度,以后多个维度点积,能够看做是多个低秩向量的结果的和,LMF相比TFN减小了不少参数量,是TFN的优化版本。但在视频分类的算法中,这2种方法的效果都不及预期,分析缘由在于视频分类的模态特征长度都在千维左右,即便是LMF也会出现参数数量爆炸的状况,为了保证参数量不爆炸就必须先将每一个模态特征降维,然而降维自己是有损的,致使降维后的模态特征再外积不如直接利用不一样模态间特征拼接。
(2) 淘宝视频不一样模态之间信息一般是不一致的,这些不一致的模态信息之间有些内容和类别标签息息相关,有些内容则相关性较低。为了关注那些与类别标签相关性更高的模态信息,下降对于不重要模态信息的关注程度,咱们提出了基于Modal Attention的多模态特征融合方法。Modal Attention基于融合的特征向量预测一个模态个数维度的基于多模态联合特征的对于不一样模态的重要性分布几率,这个模态分布几率与多模态融合特征作点积,获得对于不一样模态特征重要性从新加权事后的新的多模态融合特征。从表格1能够看出,基于Modal Attention的多模态特征融合方法的准确率显著超过了TFN和LMF,验证了基于Modal Attention的多模态特征融合方法的优点。
(3) 为了应对淘宝视频中出现的模态缺失状况,咱们使用了modal级别的dropout,在训练的时候以必定比例随机性去除某个模态信息,增长模型对于模态缺失的鲁棒性。在不添加modal dropout时,测试数据若是缺失10%的模态信息,测试精度会降低3.5%左右;在添加了modal dropout后,测试集精度降低不到0.5%,几乎能够忽略。同时添加modal dropout后,就算模态信息不缺失的状况下,还可以提高测试集精度,提升约0.4%。
▐ 层次化的分类器的设计
通常来讲,分类任务只有单一的分类目标,然而,淘宝视频的标签体系是一种结构化的分层分类任务,同时具备一级类目和二级类目,一级类目和二级类目之间有依存关系,构成了一种树状的分类体系结构,例如:二级类目的熟女穿搭、少女穿搭、男士休闲等都属于一级类目的服饰类。针对这个任务,咱们提出了分层多标签分类器(HMC)。
(1) 咱们将HMC分类器与很是经典的MLP分类器作对比。MLP分类器直接预测淘宝视频的二级类目标签,而后根据一二级类目之间的对应关系得到一级类目标签。HMC分类器同时构建了一二级类目各自的分类通道,可以同时预测一二级类目标签,结构图如图2所示。这种分类器相比于MLP,可以隐形的学习一二级类目的依赖关系,可以互相促进,提升分类精度,表格1的实验结果证实了这一点。
(2) 基于HMC分类器,咱们添加了基于类别不匹配的多目标损失函数,具体公式见公式2。损失函数L由三部分构成,分别是一级类目损失L1,二级类目损失L2,以及一二级类别不匹配损失LH。一级类目损失和二级类目损失是一二级类目的交叉熵损失,可以使得网络同时学习到多模态特征与一二级类目的条件几率分布,同时可以隐形的学习到一二级类目之间的依赖关系。然而,仅仅使用一二级类目损失没法保证一二级类目之间的依赖关系,为了缓解这个问题,咱们加入了类别不匹配损失,用于惩罚一二级类目不匹配的状况。参数 λ 用来控制一级类目损失和二级类目损失之间的重要性相对程度,由于二级类目数量更多,学习更加困难,须要添加更大的权重去学习。参数 β 用来调节类别不匹配损失对于整体损失函数的重要性。添加类别不匹配损失以后,一二级类目不匹配的状况大幅度降低,同时分类准确率也得到了提高。
Google AI掌门人Jeff Dean在NeurIPS举办期间指出在2020年多模态学习将会有很大的发展,可以解决更多单模态没法解决的问题。咱们提出的基于模态注意力机制的多模态分层视频分类算法方案为淘宝的视频内容化理解奠基了坚实的基础,为淘宝视频的精细化运营能力和冷启动能力作出了应有的贡献。与此同时,咱们的方案还根据业务需求提供了无成本的可扩展能力,不只可以助力图文内容化理解,提高图文的理解深度,同时还能经过精细的视频向量化表达来解决类似视频召回、视频抄袭检测的问题。
基于模态注意力机制的多模态分层视频分类算法方案为淘宝的视频内容化理解开了一个好头,后续咱们还会在视频内容化理解的领域内继续耕耘。目前咱们正在尝试更细粒度的多模态视频标签算法,力图将目前的2级视频类目体系推向2级视频类目+多级视频标签的体系,经过视频类目+视频标签的组合形式持续提高淘宝视频的精细化运营能力和冷启动能力。在多模态技术上,咱们会继续关注如何更高效地进行模态融合,尝试将预训练技术引入多模态中,经过偏差重建的方法让多个模态相互学习,提高模态融合的能力。
reference
[1] Szegedy C, Ioffe S, Vanhoucke V, et al. Inception-v4, inception-resnet and the impact of residual connections on learning[C]//Thirty-First AAAI Conference on Artificial Intelligence. 2017.
[2] Arandjelovic R, Gronat P, Torii A, et al. NetVLAD: CNN architecture for weakly supervised place recognition[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 5297-5307.
[3] Hershey S, Chaudhuri S, Ellis D P W, et al. CNN architectures for large-scale audio classification[C]//2017 ieee international conference on acoustics, speech and signal processing (icassp). IEEE, 2017: 131-135.
[4] Devlin J, Chang M W, Lee K, et al. Bert: Pre-training of deep bidirectional transformers for language understanding[J]. arXiv preprint arXiv:1810.04805, 2018.
[5] Wang W, Bi B, Yan M, et al. StructBERT: Incorporating Language Structures into Pre-training for Deep Language Understanding[J]. arXiv preprint arXiv:1908.04577, 2019.
[6] Zadeh A, Chen M, Poria S, et al. Tensor fusion network for multimodal sentiment analysis[J]. arXiv preprint arXiv:1707.07250, 2017.
[7] Liu Z, Shen Y, Lakshminarasimhan V B, et al. Efficient low-rank multimodal fusion with modality-specific factors[J]. arXiv preprint arXiv:1806.00064, 2018.
[8] Wehrmann J, Cerri R, Barros R. Hierarchical multi-label classification networks[C]//International Conference on Machine Learning. 2018: 5225-5234.
We are hiring
咱们是淘系技术部多媒体算法团队,咱们依托淘系数十亿级的视频数据,有丰富的业务场景和技术方向。咱们持续以技术驱动产品和商品创新,不断探索和衍生颠覆型互联网新技术。咱们不断吸引机器学习、视觉算法、音视频通讯、端侧智能等领域全球顶尖专业人才加入,让科技引领面向将来的商业创新和进步。
请投递简历至邮箱:yangjiang.yj@alibaba-inc.com
本文做者:阮彤枭(晓何)、燕保明(元年)、王琳(有邻)
本文为阿里云内容,未经容许不得转载。