基于模型的动态规划方法理论——bootstrapping算法(自举算法)

强化学习分类 bootstrapping算法(自举算法) 直接上公式,前面的推导过程就不粘了,跟马尔可夫那块差不多。 v π ( s ) = ∑ a ∈   A π ( a ∣ s ) ( R s a + γ ∑ s ′ ∈ S P s s ′ a v π ( s ′ ) ) v_\pi(s) = \sum_{a\in\ A}\pi (a|s)\left( R_s^a + \gamma \sum_
相关文章
相关标签/搜索