对Image caption的一些理解(看图说话)

1. 背景 ​ 在计算机视觉中,图像分类和目标检测任务是比较成熟的领域,已经应用到实际的产品领域。而“看图说话”要实现的功能是,给定一张图像,计算机能告诉咱们图片的内容,显然,这会使一个比较复杂的任务,由于它涉及到了以下的子任务:html 1)检测图像中的目标;git 2)目标的属性,好比颜色、尺寸等;github 3)目标之间的关联;web 4)语言模型,用于把上面的信息表述成句子;网络 2.
相关文章
相关标签/搜索