第一课:一文读懂马尔科夫过程

1.马尔科夫决策过程(MDPs)简介 马尔科夫决策过程是对强化学习(RL)问题的数学描述。几乎全部的RL问题都能经过MDPs来描述:函数 最优控制问题能够用MDPs来描述; 部分观测环境能够转化成POMDPs; 赌博机问题是只有一个状态的MDPs; 注:虽然大部分DL问题都能转化为MDPs,可是如下所描述的MDPs是全观测的状况。性能 强化学习中的表述符号:学习   2.马尔科夫性 只要知道如今,
相关文章
相关标签/搜索