机器学习笔记(十六)强化学习

  16.强化学习 16.1任务与奖赏 强化学习(reinforcementlearning)的过程就是机器通过一系列的动作和环境交互,从而得到最佳的动作序列。图示: 强化学习任务用马尔可夫决策(Markov Decision Process,MDP)描述:机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述;机器能采取的动作构成了动作空间A,若某个动作a∈A作用在当前状态x
相关文章
相关标签/搜索