image/vedio caption 论文分享

时间 2020-12-20

原文原文链接

DenseCap: Fully Convolutional Localization Networks for Dense Captioning 【2015】摘要：我们介绍一种密集描述任务，这个要求计算机视觉系统可以定位和用自然语言描述图中辨识到的区域。密集描述任务概括为当描述只是单个单词时的目标检测任务和当预测的区域为覆盖整张图像的图像描述任务。我们提出了一种全卷积定位神经网络，简称FCL