科研论文知识研讨分享

(Su et al., EMNLP 2018)Discriminative Deep Dyna-Q:Robust Planning for Dialogue Policy Learning 目的 区分判断出这两者:世界模型生成的模拟经验,用户生成的真实经验。 前人存在的问题 因为 DDQ 在planning learning训练过程的后期质量不高的模拟经验反而会损伤agent,所以DDQ解决办法是
相关文章
相关标签/搜索