强化学习之蒙特卡洛方法

时间 2021-01-13

原文原文链接

MC 预测：状态值解决预测问题的算法会确定策略 \piπ 对应的值函数 v_\pivπ（或 q_\piqπ）。通过与环境互动评估策略 \piπ 的方法分为两大类别：在线策略方法使智能体与环境互动时遵守的策略 \piπ 与要评估（或改进）的策略相同。离线策略方法使智能体与环境互动时遵守的策略 bb（其中 b\neq\pib≠π）与要评估（或改进）的策略不同。状态 s\in\mathca