周志华机器学习 Day29

时间 2021-07-12

原文原文链接

强化学习任务与奖赏通过不断的摸索、学习，能总结出好的学习策略，这个过程抽象出来，就是“强化学习”。强化学习任务通常用马尔可夫决策过程（简称MDP）来描述：机器处于环境E中，状态空间为X，其中每个状态x∈X是机器感知到的环境的描述；机器能采取的动作构成了空间A；若某个动作a∈A作用在当前状态x上