强化学习-An introduction之 马尔科夫决策过程(MDP)个人笔记

Chapter 3 马尔科夫决策过程(MDP) MDP说白了就是面对不同的状态,采取一定行动后,有一定的概率到达某个状态。 1 state, action 最重要的两个东西就是状态和行动,强化学习说简单点就是面对不同的state采取怎样的action 2 p p characterize the environment’s dynamics. 3 G 4 v, q 对 π π 的 v : 对 π
相关文章
相关标签/搜索