Lecture4: Model-Free Prediction

文章目录 Introduction Monte-Carlo Learning Monte-Carlo Policy Evaluation 首次访问蒙特卡洛策略评估 每次访问蒙特卡洛策略评估 示例:二十一点游戏 Blackjack Example 累进更新平均值 Incremental Mean 蒙特卡洛累进更新 Temporal-Difference Learning 示例--驾车返回家 MC 和
相关文章
相关标签/搜索