强化学习 5.2

虽然我们对二十一点任务中的环境有完整的了解,但使用DP方法计算值函数并不容易。 DP方法需要分发下一个事件——特别是它们需要由四参数函数p给出的环境动态——而且并不容易确定。例如,假设玩家的总和是14,他选择坚持。作为经销商出示卡片的函数,他以+1的奖励终止的概率是多少?必须在应用DP之前计算所有概率,并且这种计算通常很复杂且容易出错。相反,蒙特卡罗方法所需的生成样本游戏很简单。经常出现这种情况;
相关文章
相关标签/搜索