Videos as Space-Time Region Graphs阅读笔记

1.解决问题:基于I3D模型,使用图模型,以构造视频中物体间的关系,提升识别精度。 本文是将video看做是 a graph of objects,然后再该graph上进行行为识别的推理。 2.实验效果:在somethingV1数据集上,test:45% 相对于I3D 提高1.7% ,相对于TRN网络提高12% 3.图卷积层的定义:Z=GXW 其中x是图卷积输入节点是特征(Nxd),G各个节点之间
相关文章
相关标签/搜索