MDP 马尔科夫决策过程

算法解析:(结合《强化学习——原理与Python实现》P18-19理解) 1.动力系统中的各个参数在一开始就是确定值 2.策略π中每个状态下的动作选择概率随机分配,因为这个概率值是可变的,但在迭代后会收敛 3.状态转移图中,每个状态的初始状态值指定为0 4.根据策略π确定该状态选择的动作,再和状态S的初始值一起代入到状态值计算公式,更新S的状态值。 5.状态值更新收敛之后,就可以通过比较在状态S下
相关文章
相关标签/搜索