值迭代、策略迭代

值函数 策略: 状态s到动作a的映射: π:S→A 值函数:值函数都是对应于特定的策略的,即 Vπ 对于策略 π ,状态s的值函数: Vπ(s)=E[R(s0)+γR(s1)+γ2R(s2)+...|s0=s,π]. 也可表示为Bellman形式,是一种迭代思想: Vπ(s)=R(s)+γ∑s′∈SPsπ(s)(s′)Vπ(s′). 其中 Psπ(s)(s′) 表示对应于策略 π 的状态转移概率,
相关文章
相关标签/搜索