强化学习之蒙特卡洛方法

MC 预测:状态值 解决预测问题的算法会确定策略 \piπ 对应的值函数 v_\pivπ​(或 q_\piqπ​)。 通过与环境互动评估策略 \piπ 的方法分为两大类别: 在线策略方法使智能体与环境互动时遵守的策略 \piπ 与要评估(或改进)的策略相同。 离线策略方法使智能体与环境互动时遵守的策略 bb(其中 b\neq\pib≠π)与要评估(或改进)的策略不同。 状态 s\in\mathca
相关文章
相关标签/搜索