image caption初探

时间 2020-12-20

原文原文链接

看图说话怎么玩 1、首先你需要一些有标题的数据集比如coco的image caption。Flickr8k数据集也不错。 2、基础模型框架可以参考这个作者写的代码(初级)：https://github.com/anuragmishracse/caption_generator 该作者使用的数据集vocab_size字典库的大小为8256. 模型的输入X的其中一部分是(224,224,3)的图像经