对话系统日更(1)-DPL综述

DPL综述: 参考:https://zhuanlan.zhihu.com/p/52692962 dialogue act对应于DPL,表明在限制条件(之前的累积目标、对话历史等)下系统要执行的动作(接下来的策略),这个动作可能不是追求当前收益最大化,而是未来收益最大化。 state:状态St是一种包含 0时刻到t时刻的对话历史、 用户目标 意图和槽值对的数据结构 它的输入是Un(n时刻的意图和槽值
相关文章
相关标签/搜索