Videos as Space-Time Region Graphs阅读笔记

时间 2021-01-17

原文原文链接

1.解决问题：基于I3D模型，使用图模型，以构造视频中物体间的关系，提升识别精度。本文是将video看做是 a graph of objects,然后再该graph上进行行为识别的推理。 2.实验效果：在somethingV1数据集上，test：45% 相对于I3D 提高1.7% ，相对于TRN网络提高12% 3.图卷积层的定义：Z=GXW 其中x是图卷积输入节点是特征（Nxd），G各个节点之间