attention model

先看下之前用CNN+RNN做Captioning的model,图片经过CNN(包括CONV和FC)后的feature输入到RNN的入口处(RNN仅此一次使用到图片信息),然后用training data中包含的对应的文字信息求出vocabulary的分布,如此即可计算loss来进行training 上面的这个方法有些缺陷,我们希望 1. RNN能多次看图片的信息 2. 每次能focus图片的不同部
相关文章
相关标签/搜索