image caption学习笔记

show and tell cnn-lstm结构,cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后,将其输入一个线性层(CNN),得到 x − 1 x_{-1} x−1​作为第一个lstm的输入,对于输入句子的每个字 s t s_{t} st​,将其与权重参数 w e w_e we​相乘,输出作为lstm的输入, 模型结构如下, inference 有两种方法得到输出
相关文章
相关标签/搜索