Deep Reinforcement Learning for Dialogue Generation-关于生成对话的深度强化学习

  摘要:生成对话的最新神经模型为对话代理提供了很好的前景,但这往往是短视的、每次只预测一句话语从而忽视了它们对之后输出的影响。模拟对话的未来方向的关键在于生成连续、有趣的对话,导致对话的传统NLP模型去借鉴强化学习的需求。在本文中,我们展示如何去整合这些目标,在聊天机器人对话中使用深度强化学习去建模未来的反馈。该模型模拟两个虚拟代理之间的对话,使用策略梯度算法去惩罚序列,该序列展示三个有用的对话
相关文章
相关标签/搜索