强化学习基础 | (4) 用蒙特卡罗法（MC）求解

时间 2021-01-04

标签 Lee Hung-yi强化学习繁體版

原文原文链接

原文地址作者：刘建平在用动态规划（DP)求解中，我们讨论了用动态规划来求解强化学习预测问题和控制问题的方法。但是由于动态规划法需要在每一次回溯更新某一个状态的价值时，回溯到该状态的所有可能的后续状态。导致对于复杂问题计算量很大。同时很多时候，我们连环境的状态转化模型P都无法知道，这时动态规划法根本没法使用。这时候我们如何求解强化学习问题呢？本文要讨论的蒙特卡罗(Monte-Calo, MC)就

>>阅读原文<<