4. 强化学习之——值函数近似

时间 2020-12-29

标签强化学习繁體版

原文原文链接

课程纲要值函数近似简介值函数近似用于prediction【给定策略函数给定它的价值】值函数近似用于control DQN简介为什么要有值函数近似之前的课程提到的 RL 问题：像 Cliff Walk 等，都只有几千或者几百种状态，可以用 V值的向量或者 Q-Table 的方式表达出来而其它大规模的 MDP 问题：像 Go【10**170】等状态空间十分十分巨大，宇宙中的原子数量也只有

>>阅读原文<<

最新文章

欢迎关注本站公众号,获取更多信息