MC

Monte-Carlo Mthod 5.1Monte-Carlo Prediction 在策略 π \pi π下,通过采样实际交互片段,计算片段中状态的mean return近似值函数。 回报(return): G t = T t + 1 + γ R t + 2 + . . . + γ T − 1 R T G_t=T_{t+1}+ \gamma R_{t+2}+...+\gamma^{T-1}R_
本站公众号
   欢迎关注本站公众号,获取更多信息