Reinforcement Learning: Model-free control

On-policy Monte-Carlo Control On-Policy Temporal-Difference Learning Off-Policy Learning 使用Monte-Carlo对off-policy进行更新 使用TD对off-policy进行更新 使用Q-learning进行off-policy的更新 上一节讲到的是对未知MDP的value function进行估计,这
相关文章
相关标签/搜索