对话系统日更（1）-DPL综述

时间 2021-01-13

原文原文链接

DPL综述：参考：https://zhuanlan.zhihu.com/p/52692962 dialogue act对应于DPL，表明在限制条件（之前的累积目标、对话历史等）下系统要执行的动作（接下来的策略），这个动作可能不是追求当前收益最大化，而是未来收益最大化。 state：状态St是一种包含 0时刻到t时刻的对话历史、用户目标意图和槽值对的数据结构它的输入是Un（n时刻的意图和槽值