DL--Markov decision process(MDP)(马尔可夫决策过程)

wiki:https://en.wikipedia.org/wiki/Markov_decision_process 马尔可夫决策过程(MDP)是一个离散时间随机控制过程。它提供了一个数学框架,用于在结果部分随机、部分受决策者控制的情况下建模决策。MDPs有助于研究动态规划和强化学习所解决的优化问题。MDPs至少早在20世纪50年代就已为人所知;[1]Markov决策过程的一个核心研究机构源于Ro
相关文章
相关标签/搜索