强化学习 5.2

时间 2021-07-12

原文原文链接

虽然我们对二十一点任务中的环境有完整的了解，但使用DP方法计算值函数并不容易。 DP方法需要分发下一个事件——特别是它们需要由四参数函数p给出的环境动态——而且并不容易确定。例如，假设玩家的总和是14，他选择坚持。作为经销商出示卡片的函数，他以+1的奖励终止的概率是多少？必须在应用DP之前计算所有概率，并且这种计算通常很复杂且容易出错。相反，蒙特卡罗方法所需的生成样本游戏很简单。经常出现这种情况;

>>阅读原文<<