机器学习(二十八)——Monte-Carlo

动态规划(续) Value Iteration vk+1(s)=maxa∈A(Ras+γ∑s′∈SPass′vk(s′)) v k + 1 ( s ) = max a ∈ A ( R s a + γ ∑ s ′ ∈ S P s s ′ a v k ( s ′ ) ) state-value function迭代的复杂度是 O(mn2) O ( m n 2 ) ,其中m为action的数量,n为st
相关文章
相关标签/搜索