ACL2016最佳论文：用于口语对话系统策略优化的在线自动奖励学习

时间 2021-01-15

原文原文链接

用于口语对话系统策略优化的在线自动奖励学习联合编译：陈圳，章敏，高斐摘要计算正确奖励函数的能力对于通过加强学习优化对话系统十分的关键。在现实世界的应用中，使用明确的用户反馈作为奖励信号往往是不可靠的，并且收集反馈花费也十分地高。但这一问题可以有所减轻，如果能提前知道用户的意图或是数据能预先训练任务离线的任务成功预测器。在实践中这两种都不太适合现实中的大多数应用。在这里我们提出了一个在线学习框

>>阅读原文<<