强化学习(2)---马尔科夫决策

需要知道的一些概念 马尔科夫决策过程 马尔科夫链 马尔科夫奖励过程 马尔科夫中的价值函数 马尔科夫决策过程的控制:policy iteration value iteration 基于价值函数的agent:不使用决策函数,在价值函数中推测police 基于police的agent:不使用价值函数 两个都用 通过模型使用不同分类: 看会否有环境转移模型 马尔科夫决策过程是强化学习的基本框架,环境是全
相关文章
相关标签/搜索