对Image caption的一些理解(看图说话)

1. 背景 ​ 在计算机视觉中,图像分类和目标检测任务是比较成熟的领域,已经应用到实际的产品领域。而“看图说话”要实现的功能是,给定一张图像,计算机能告诉我们图片的内容,显然,这会使一个比较复杂的任务,因为它涉及到了如下的子任务: 1)检测图像中的目标; 2)目标的属性,比如颜色、尺寸等; 3)目标之间的关联; 4)语言模型,用于把上面的信息表述成句子; 2. 相关的论文 2.1 “Show an
相关文章
相关标签/搜索