MC

时间 2021-02-24

原文原文链接

Monte-Carlo Mthod 5.1Monte-Carlo Prediction 在策略 π \pi π下，通过采样实际交互片段，计算片段中状态的mean return近似值函数。回报(return)： G t = T t + 1 + γ R t + 2 + . . . + γ T − 1 R T G_t=T_{t+1}+ \gamma R_{t+2}+...+\gamma^{T-1}R_