贝尔曼方程

网格世界示例如下: 贝尔曼方程 在这个网格世界示例中,一旦智能体选择一个动作, 它始终沿着所选方向移动(而一般 MDP 则不同,智能体并非始终能够完全控制下个状态将是什么) 可以确切地预测奖励(而一般 MDP 则不同,奖励是从概率分布中随机抽取的)。 在这个简单示例中,我们发现任何状态的值可以计算为即时奖励和下个状态(折扣)值的和。 Alexis 提到,对于一般 MDP,我们需要使用期望值,因为通
相关文章
相关标签/搜索