【深度强化学习】2. 马尔科夫决策过程

时间 2021-01-22

原文原文链接

【DataWhale打卡】周博磊博士-第二节马尔科夫决策过程，主要内容：马尔科夫链、马尔科夫奖励过程、马尔科夫决策过程 Policy evaluation in MDP Control in MDP: policy iteration & value iteration 这部分主要讲的除了MDP问题本身，主要是动态规划方面的求解方法。文章目录一、引入二、Markov Process(MP)