4. 强化学习之——值函数近似

课程纲要 值函数近似简介 值函数近似用于prediction【给定策略函数给定它的价值】 值函数近似用于control DQN简介 为什么要有值函数近似 之前的课程提到的 RL 问题:像 Cliff Walk 等,都只有几千或者几百种状态,可以用 V值的向量或者 Q-Table 的方式表达出来 而其它大规模的 MDP 问题:像 Go【10**170】 等状态空间十分十分巨大,宇宙中的原子数量也只有
相关文章
相关标签/搜索