L2: Markov Decision学习笔记

前言 本节主要讲述了MP、MRP、MDP的基本概念,并介绍了Bellman方程在计算状态/动作值函数中的应用,进一步说明何为最优策略,最后介绍了MDP的几种扩展形式,例如POMDP。 MP 马尔科夫过程具有无记忆性,MP可以用元组<S,P>来表示,S代表状态,P表示状态之间的转移矩阵, 从示例来看,MP仅含有S、P。 MRP 相比MP,MRP多了2个维度,其表示为 <S, P, R, Y>, R表
相关文章
相关标签/搜索