机器学习（二十八）——Monte-Carlo

时间 2020-12-30

原文原文链接

动态规划（续） Value Iteration vk+1(s)=maxa∈A(Ras+γ∑s′∈SPass′vk(s′)) v k + 1 ( s ) = max a ∈ A ( R s a + γ ∑ s ′ ∈ S P s s ′ a v k ( s ′ ) ) state-value function迭代的复杂度是 O(mn2) O ( m n 2 ) ，其中m为action的数量，n为st