L2: Markov Decision学习笔记

时间 2021-01-10

原文原文链接

前言本节主要讲述了MP、MRP、MDP的基本概念，并介绍了Bellman方程在计算状态/动作值函数中的应用，进一步说明何为最优策略，最后介绍了MDP的几种扩展形式，例如POMDP。 MP 马尔科夫过程具有无记忆性，MP可以用元组<S,P>来表示，S代表状态，P表示状态之间的转移矩阵, 从示例来看，MP仅含有S、P。 MRP 相比MP，MRP多了2个维度，其表示为 <S, P, R, Y>, R表