机器学习笔记(十六)强化学习

时间 2020-12-31

原文原文链接

16.强化学习 16.1任务与奖赏强化学习（reinforcementlearning）的过程就是机器通过一系列的动作和环境交互，从而得到最佳的动作序列。图示：强化学习任务用马尔可夫决策（Markov Decision Process，MDP）描述：机器处于环境E中，状态空间为X，其中每个状态x∈X是机器感知到的环境的描述；机器能采取的动作构成了动作空间A，若某个动作a∈A作用在当前状态x

>>阅读原文<<