【深度强化学习】2. 马尔科夫决策过程

【DataWhale打卡】周博磊博士-第二节马尔科夫决策过程,主要内容: 马尔科夫链、马尔科夫奖励过程、马尔科夫决策过程 Policy evaluation in MDP Control in MDP: policy iteration & value iteration 这部分主要讲的除了MDP问题本身,主要是动态规划方面的求解方法。 文章目录 一、引入 二、Markov Process(MP)
相关文章
相关标签/搜索