【强化学习】入门学习

马尔科夫决策过程(Markov Decision Process)MDP 假设状态s下采取动作a,转到下一个状态s′的概率,表示为 P s s ′ a P_{ss'}^a Pss′a​ 如果按照真实的环境转化过程看,转化到下一个状态s′的概率既与上一个状态s有关,还与上上个状态,以及上上上个状态有关。这一会导致我们的环境转化模型非常复杂,复杂到难以建模。因此我们需要对强化学习的环境转化模型进行简化
相关文章
相关标签/搜索