强化学习(2)---马尔科夫决策

时间 2021-01-11

原文原文链接

需要知道的一些概念马尔科夫决策过程马尔科夫链马尔科夫奖励过程马尔科夫中的价值函数马尔科夫决策过程的控制：policy iteration value iteration 基于价值函数的agent：不使用决策函数，在价值函数中推测police 基于police的agent：不使用价值函数两个都用通过模型使用不同分类：看会否有环境转移模型马尔科夫决策过程是强化学习的基本框架，环境是全

>>阅读原文<<