第二章马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现（强化学习导论第二版）

时间 2021-01-15

原文原文链接

获取更多资讯，赶快关注上面的公众号吧！本章目录第二章马尔科夫决策过程和贝尔曼等式 2.1 学习目标 2.2 代理-环境接口 2.3 目标和奖励 2.4 回报和片段 2.5 片段任务和连续任务的统一表示法 2.6 策略与值函数 2.7 最优策略和最优值函数 2.8 最优与近似 2.9 总结第二章马尔科夫决策过程和贝尔曼等式在本章中将介绍有限马尔科夫决策过程（finite MDPS）的形式

>>阅读原文<<

第二章 马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现（强化学习导论第二版）

第二章马尔科夫决策过程和贝尔曼等式-强化学习理论学习与代码实现（强化学习导论第二版）