周志华 机器学习 Day29

                                                  强化学习 任务与奖赏 通过不断的摸索、学习,能总结出好的学习策略,这个过程抽象出来,就是“强化学习”。 强化学习任务通常用马尔可夫决策过程(简称MDP)来描述:机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述;机器能采取的动作构成了空间A;若某个动作a∈A作用在当前状态x上
相关文章
相关标签/搜索