3. 强化学习之——无模型的价值函数估计和控制

目录 本次课程主要内容 回顾上次课讲的马尔科夫决策过程 探讨什么是 model-free  Model-free prediction:未知 MDP 情况下的策略估计(值函数估计) Model-free control:未知 MDP 情况下的值函数优化 本次课程主要内容 model-free prediction:估计一个未知 MDP 模型的 value function model-free c
相关文章
相关标签/搜索