第一课:一文读懂马尔科夫过程

1.马尔科夫决策过程(MDPs)简介 马尔科夫决策过程是对强化学习(RL)问题的数学描述。几乎所有的RL问题都能通过MDPs来描述: 最优控制问题可以用MDPs来描述; 部分观测环境可以转化成POMDPs; **机问题是只有一个状态的MDPs; 注:虽然大部分DL问题都能转化为MDPs,但是以下所描述的MDPs是全观测的情况。 强化学习中的表述符号:   2.马尔科夫性 只要知道现在,将来和过去条
相关文章
相关标签/搜索