David silver 强化学习公开课笔记(二):MP、MRP、MDP

1 引言 1.1 Markov 的性质 正如上一节课提到的,Markov 状态表示当前的状态包括了历史所有的信息,也就是给定当前状态,未来和历史是独立的。通俗的说就是未来只和现在有关,和过去是没有关系的!其实也不能说和过去是没有关系,而是现在状态包括了所有的历史。有点绕。。还是看下面的定义式: 所有的 RL 的问题都能表示为一个 MDP。关于什么是 MDP,下面再说。 1.2 状态转移矩阵  从状
相关文章
相关标签/搜索