《强化学习Sutton》读书笔记(三)——动态规划(Dynamic Programming)

此为《强化学习》第四章。web 策略评估 策略评估 (Policy Evaluation) 首先考虑已知策略 π(a|s) π ( a | s ) ,求解 vπ(s) v π ( s ) 。根据上一节中状态值函数的Bellman等式,有 算法 vπ(s)=∑aπ(a|s)∑s′∑rp(s′,r|s,a)[r+γvπ(s′)] v π ( s ) = ∑ a π ( a | s ) ∑ s ′ ∑
相关文章
相关标签/搜索