贝尔曼方程

时间 2021-01-06

原文原文链接

网格世界示例如下：贝尔曼方程在这个网格世界示例中，一旦智能体选择一个动作，它始终沿着所选方向移动（而一般 MDP 则不同，智能体并非始终能够完全控制下个状态将是什么）可以确切地预测奖励（而一般 MDP 则不同，奖励是从概率分布中随机抽取的）。在这个简单示例中，我们发现任何状态的值可以计算为即时奖励和下个状态（折扣）值的和。 Alexis 提到，对于一般 MDP，我们需要使用期望值，因为通