DMP(马尔可夫决策过程)

DMP 一 累积回报 智能体的目标是最大化长期受到的累积回报(cumulative reward)。如何定义累计回报呢?如果在时间t时刻之后,智能体接受到的回报序列表示成 . 那么,我们寻求的是最大化期望回报(expected return),这里用Gt表示特定的回报序列函数。回报的表示方法之一是将回报累加,即: 考虑到实际场景,在计算累积回报时都会引入一个折扣因子(用γ表示)。智能体尝试选择一个
相关文章
相关标签/搜索