Image Cption:Curiosity-driven Reinforcement Learning for Diverse Visual Paragraph Generation

三个挑战:模式崩溃、延迟反馈、策略网络热身损耗时间长 这篇paper: 首先通过将段落标题作为一个长期的决策过程进行建模,并将状态转换的预测不确定性作为内在奖励进行测量,该模型被激励去记忆准确但很少被发现的描述单词,而不是那些频繁使用的通用模式。这样使得我们最后生成的段落内容生动有趣; 其次,由于评价的外部奖励只能在完整段落生成后有效,我们通过考虑连续动作的相关性,用视察学习法估计每一步的期望值。
相关文章
相关标签/搜索