Neural Baby Talk笔记

在网上看到很多对这篇文章的解析,今天就来总结一下,其中也有我的的看法。网络 文章的作法是:首先生成一个模板3d 这个模板里面的插槽对应了须要填入的词所在的region。blog 对于一张输入的图片,将物体检测的结果和CNN中间层的features输入带有Attention的RNN里,RNN给出s_t和h_t,ht通过softmax生成P_txt^t,而s_t与v_1, v_2, v_3...v_N
相关文章
相关标签/搜索