第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现(强化学习导论第二版)

获取更多资讯,赶快关注上面的公众号吧! 本章目录 第二章 马尔科夫决策过程和贝尔曼等式 2.1 学习目标 2.2 代理-环境接口 2.3 目标和奖励 2.4 回报和片段 2.5 片段任务和连续任务的统一表示法 2.6 策略与值函数 2.7 最优策略和最优值函数 2.8 最优与近似 2.9 总结 第二章 马尔科夫决策过程和贝尔曼等式 在本章中将介绍有限马尔科夫决策过程(finite MDPS)的形式
相关文章
相关标签/搜索