image caption学习笔记

时间 2020-12-20

原文原文链接

show and tell cnn-lstm结构，cnn部分采用vgg,使用的是vgg的fc2层作为输出图片特征。得到图片特征后，将其输入一个线性层（CNN），得到 x − 1 x_{-1} x−1作为第一个lstm的输入，对于输入句子的每个字 s t s_{t} st，将其与权重参数 w e w_e we相乘，输出作为lstm的输入，模型结构如下， inference 有两种方法得到输出